大数据_头顶榴莲树的博客-CSDN博客

大数据

关注

关注数：文章数：51 文章阅读量：245999 文章收藏量：310

作者: 头顶榴莲树

持续分享大数据技术经验，欢迎交流~

展开

专栏收录文章

基于Prometheus+Grafana实现对Tomcat监控

prometheus+grafana监控tomcat

原创 2023-03-13 15:25:30 · 1657 阅读 · 0 评论
CDH6.x安装教程(附带整合kerberos)

一、安装前准备设置HOST vi /etc/hosts 关闭防火墙 sudo systemctl disable firewalldsudo systemctl stop firewalld 设置SELinux vi /etc/selinux/config 将SELINUX=enforcing 改为SELINUX=permissive，然后重启服务器，或者执行下面命令： setenforce 0 开启NTP服务 # 安装NTP服务.....

原创 2021-02-02 17:50:21 · 5212 阅读 · 10 评论
Hive+Zookeeper+Kerberos配置HA方法

一般在cdh上配置，如图：具体的几个配置项如下：hive.server2.support.dynamic.service.discovery=truehive.server2.zookeeper.namespace=hiveserver2_zkhive.zookeeper.quorum=test-hadoop-pc06:2181,test-hadoop-pc07:2181,test-hadoop-pc08:2181hive.zookeeper.client.port=2181hive.serv.

原创 2020-12-18 10:20:31 · 2138 阅读 · 0 评论
HDP-3.1.5.0-152环境与hudi-0.9.0兼容性问题

集群环境：HDP 3.1.5.0-152Spark 2.3.0（hudi官网要求2.4+）Hudi 0.9.0当前环境执行hudi官网测试代码报错“NoSuchFieldError: NULL_VALUE”，代码如下：def main(args: Array[String]): Unit = { val spark = SparkSession.builder .master("local[2]") .appName("hudi-test")

原创 2022-02-18 14:58:02 · 1106 阅读 · 1 评论
HDP-3.1.5集成DolphinScheduler-1.3.9

一、环境准备CentOS-7.8、nodejs-16、npm-(nodejs自带)、java-1.8、maven-3.8二、编译从GitHub获取dolphinscheduler-1.3.9源码git clone https://github.com/apache/dolphinscheduler.git -b 1.3.9-release进入源码目录进行编译mvn -U clean install -Prpmbuild -Dmaven.test.skip=true -X编译完

原创 2021-11-19 10:11:08 · 3233 阅读 · 3 评论
There is no available StoreManager of type “rdbms“-HDP-3.1.5集成Spark-3.1.1报错

详细日志：22/03/29 09:02:47 ERROR Datastore: Exception thrown creating StoreManager. See the nested exceptionThere is no available StoreManager of type "rdbms". Make sure that you have put the relevant DataNucleus store plugin in your CLASSPATH and if defin

原创 2022-03-29 17:05:32 · 2191 阅读 · 0 评论
CDH完全卸载教程

适用于各版本CDH卸载1、停止集群

原创 2021-06-18 13:34:05 · 6066 阅读 · 0 评论
Structured Streaming消费带kerberos认证的kafka问题解决

主要错误：SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - LOOKING_UP_SERVER)]kafka连接配置如下：val df = spark .readStream .format("kafka")

原创 2022-03-01 10:31:56 · 3989 阅读 · 0 评论
滴滴kafka-manager监控CDH版kafka(带kerberos认证)

对于CDH环境的kafka，并且带有kerberos认证的，部署kafka-manager时需要注意两点：1、接入集群要用的安全协议配置这里直接给个模板：{ "security.protocol":"SASL_PLAINTEXT", "sasl.mechanism":"GSSAPI", "sasl.kerberos.service.name":"kafka", "sasl.jaas.config":"com.sun.security.auth.module.Krb5LoginMo...

原创 2020-12-18 10:11:58 · 1012 阅读 · 4 评论
FlinkSQL消费Kafka写入Hive表

flinkSQL消费kafka实时写入hive表

原创 2022-10-13 11:08:45 · 7946 阅读 · 4 评论
CDH重新初始化Hive元数据库

初始化元数据需要使用cdh hive中的schematool 脚本工具进行初始化，初始化脚本位置为cloudera/parcels/CDH/lib/hive/bin/接下来执行初始化命令./schematool -initSchema -dbType mysql --verbose执行报错：[root@prod-bigdata-pc7 bin]# ./schematool -dbType mysql -initSchema -passWord root -userName root --

原创 2021-10-21 09:53:30 · 2587 阅读 · 2 评论
FlinkSQL流式关联Hbase大表方案(走二级索引)

我们在做实时数据开发的时候，通常要用spark、flink去消费kafka的数据，拿到数据流后会和外部数据库(Hbase、MySQL等)进行维表关联来把数据流打宽。当然了，有些外部数据库不只是存储维度数据，也会有很多事实数据，并且这些数据更新频繁，数据量巨大，但是我们的Flink流也会去实时的join这些巨大的事实表，这就需要选择一个合适的外部数据库作为支持，这个外部数据库一定要满足海量数据高效的读写性能，这样才能满足实时场景的需求，说到这，我们的目光自然而然的落到了Hbase上，来吧，我们直接上图，下..

原创 2022-02-10 16:40:05 · 3686 阅读 · 1 评论
java连接phonix报错：KeeperErrorCode = NoNode for /hbase/hbaseid

我的phonix jdbc url连接参数值如下jdbc:phoenix:prod-bigdata-pc10:2181/hbase-unsecure可见我在url中已经指定了zk连接端口和hbase节点等信息，由于我是hdp环境，该环境的hbase在zk上建立的根节点为/hbase-unsecure，所以需要指定实际值，但是实际建立phonix连接时仍旧会到zk上找默认的/hbase节点，并且也发现了在url上指定zk端口也是不生效的。解决：在工程中添加hbase-site.xml文件，并通过

原创 2022-02-09 13:02:54 · 3389 阅读 · 0 评论
hdp集成apache spark提交任务时报错:bad substitution

__spark_conf__/__hadoop_conf__: bad substitution

原创 2022-02-18 14:48:32 · 1865 阅读 · 2 评论
Hive on Tez : How to control the number of Mappers and Reducers

Hive on Tez : How to control the number of Mappers and ReducersGoal:How to control the number of Mappers and Reducers in Hive on Tez.Env:Hive 2.1Tez 0.8Solution:1. # of MappersWhich Tez parameters control this?tez.grouping.max-size..

转载 2022-01-18 16:58:06 · 548 阅读 · 0 评论
kylin-4.0.1启动报错：NoSuchMethodError: org.apache.tomcat.JarScanner.scan

环境：HDP-3.1.5Apache Spark-2.4.7Kylin-4.0.1启动后logs/kylin.out日志如下Caused by: java.lang.NoSuchMethodError: org.apache.tomcat.JarScanner.scan(Lorg/apache/tomcat/JarScanType;Ljavax/servlet/ServletContext;Lorg/apache/tomcat/JarScannerCallback;)V

原创 2022-03-29 17:27:31 · 1608 阅读 · 0 评论
Spark提交报错：1 node(s) are excluded in this operation

提交spark on yarn作业报错：主要错误信息“There are 1 datanode(s) running and 1 node(s) are excluded in this operation”，有一个datanode被排除1088 [main] INFO org.apache.spark.deploy.yarn.Client - Verifying our application has not requested more than the maximum memory ca

原创 2022-02-25 10:59:39 · 2919 阅读 · 0 评论
Spark作业一直处于ACCEPTED状态

原因1：集群处于不健康状态打开yarn监控页面，查看nodes 状态如果Unhealthy Nodes列不为0，说明有的节点不健康，可以点进去查看详情，处理完并且集群处于健康状态后可尝试再次提交作业。

原创 2022-02-25 13:36:27 · 3326 阅读 · 0 评论
Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration

HDP3使用apache版Spark2.4查询hive时报错：Caused by: java.lang.RuntimeException: org.apache.tez.dag.api.TezUncheckedException: Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration at org.apache.hadoop.hive.ql.session.SessionState.st

原创 2022-03-24 16:22:09 · 2675 阅读 · 0 评论
hive查询报错readDirect unsupported in RemoteBlockReader

readDirect unsupported in RemoteBlockReader

原创 2022-10-17 14:15:58 · 539 阅读 · 0 评论
插入数据到hive hbase映射表报错RegionTooBusy

hive中使用insert select方式将某普通hive表数据写入一张hive hbase映射表,执行速度很慢，拿到其中一个container的日志发现有报错，错误如下：2022-01-18 17:18:37,730 [INFO] [htable-pool3-t1] |client.AsyncRequestFutureImpl|: id=2, table=test:LCCONT_INS, attempt=6/36, failureCount=251ops, last exception=org.a

原创 2022-01-18 17:34:32 · 2381 阅读 · 0 评论
IDEA本地执行Spark报错：is not a valid DFS filename

本地执行spark structured streaming 报错，程序代码：def main(args: Array[String]): Unit = { val spark = SparkSession .builder .master("local[2]") .appName("sparkStream2hudi") .getOrCreate() //消费kafka import spark.implicits._

原创 2022-02-21 10:31:52 · 2570 阅读 · 2 评论
Ranger环境下的Atlas启动异常AccessControlException: Permission denied

环境：HDP-3.1.5Ranger-1.2.0Atlas-1.1.0启动Atlas报错如下：Took 0.9533 secondsjava exceptionERROR Java::OrgApacheHadoopHbaseIpc::RemoteWithExtrasException: org.apache.hadoop.hbase.security.AccessDeniedException: org.apache.hadoop.security.AccessControlEx

原创 2021-11-04 16:09:19 · 1347 阅读 · 0 评论
kafka指定时间范围消费一批topic数据

public class JavaConsumerTool { /** * 创建消费者 * @return */ public static KafkaConsumer<String, String> getConsumer(){ Properties props = new Properties(); props.put("bootstrap.servers", "127.0.0.1:9092"); .

原创 2022-01-18 16:23:03 · 3743 阅读 · 0 评论
Flink on Yarn 日志存储位置

有时我们的flink作业中打印太多日志（可能GB级别），在flink job web上加载就会很慢，这时我们想找到job输出的文件存放在哪个节点的目录下，并直接去查看日志文件，但是怎么找呢，来吧我们看下，我有个场景，flink作业中使用System.out.print输出了很多日志，导致在flink job web上加载就很慢，下载该日志时提示有15G，所以干脆不要下载了。我们查看下flink on yarn的作业启动输出信息，找下它的任务在哪几个节点跑，并且找到日志位置信息，我们打开它的yarn任务界面

原创 2022-01-13 08:21:18 · 4937 阅读 · 0 评论
Could not find any format factory for identifier ‘parquet‘ in the classpath

Could not find any format factory for identifier 'parquet' in the classpath

原创 2022-10-11 13:38:18 · 1253 阅读 · 0 评论
HPLSQL连接Hive(Kerberos认证)指南

1、下载hplsql安装包：地址：http://www.hplsql.org/download ，当前测试环境CDH为6.3版本，选择下载0.3.17版的就可以2、解压到某路径下，参考官网就行3、配置hplsql-site.xml主要改下hive2的jdbc连接参数:<property> <name>hplsql.conn.hive2conn</name> <value>org.apache.hive.jdbc.HiveDriver;jdbc:hiv

原创 2020-12-18 10:24:48 · 625 阅读 · 1 评论
离线安装elasticdump

离线安装elasticdump

原创 2022-12-02 14:51:34 · 1497 阅读 · 0 评论
npm install 报错解决

npm安装cnpm时报各种关于package.json的解析错误，经过多次使用'npm cache clean --force'命令清除缓存再安装后最终报如下错误：npm ERR! code EINTEGRITYnpm ERR! sha1-wgdX/nLucSeOoP89h+XCyjDZ7fg= integrity checksum failed when using sha1: wanted ...

原创 2018-03-11 09:21:38 · 108076 阅读 · 7 评论
记录一次HDFS JN迁移异常处理

集群环境为CDH6.3.2，现需要将hdfs三个jn中的其中一个迁移到其他节点，当正在CDH管理端操作jn迁移时，误删了目标jn节点上迁移任务刚自动创建的jn数据目录，之后产生了一系列问题，先看下误删jn数据目录后的jn报错日志：2021-06-19 11:43:09,759 INFO org.apache.hadoop.hdfs.qjournal.server.JournalNode: STARTUP_MSG:/*******************************************

原创 2021-06-25 09:54:56 · 1538 阅读 · 0 评论
NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Lja

Phonix和Hbase版本用的比较高，Phonix是5.0.0-HBase-2.0版，我用JAVA JDBC查询Phonix时报错：Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Ljavax/security/auth/Subject;)Z很显然时hadoop auth包版本的问题，于是将hadoop-aut

原创 2022-01-14 13:01:51 · 1858 阅读 · 0 评论
HDP环境的kafka如何开启JMX

打开HDP上的kafka配置界面，找到kafka-env template配置项，编辑添加export JMX_PORT=9393，该变量指定了JMX服务端口号，修改完成后重启kafka服务即可

原创 2022-01-07 16:35:38 · 1417 阅读 · 0 评论
HDP-3.1环境kafka主题无法删除问题解决方案

问题描述：使用kafka-topics命令执行--delete操作删除topic无效，集群环境的kafka配置项delete.topic.enable=true，执行完删除操作后topic仍然存在，但是该topic分区的leader却会改变，并且zk的admin/delete_topics节点下并没有创建与该topic同名的子节点，通常执行删除操作后，kafka会在zk的admin/delete_topics节点下创建一个与删除topic同名的子节点以标记该topic已经删除。解决：在zk的admi

原创 2022-01-07 14:55:10 · 1315 阅读 · 0 评论
Flink任务OOM问题

当我们要读取大表时，例如hive表，很容易出现task内存不够用的情况，当这种情况出现时，任务可能会报出GC异常或者TaskManager心跳异常等，如下：1、java.lang.OutOfMemoryError: GC overhead limit exceeded2、java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id 【containerID】 timed out.这时我们可以观察TaskMana

原创 2022-04-13 14:43:18 · 5517 阅读 · 0 评论
cdh安装教程

CDH安装超强指南

原创 2022-03-24 18:09:45 · 6011 阅读 · 2 评论
Flink接收Kafka中的Avro序列化消息

在Flink官网中可以看到flink接收kafka数据的简单示例程序Properties properties = new Properties();properties.setProperty("bootstrap.servers", "localhost:9092");// only required for Kafka 0.8properties.setProperty("zoo...

原创 2020-01-09 11:53:54 · 5291 阅读 · 9 评论
Flink on Yarn报错：Container released on a *lost* node

flink任务提交到yarn执行几天后报错：2022-01-05 15:09:26,288 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed checkpoint 89574 for job cc0abb4a3cd870b2a9e1abc7235ceb91 (3528 bytes in 610 ms).2022-01-05 15:09:29,544 WARN akka.remote.R

原创 2022-01-06 14:48:22 · 2743 阅读 · 0 评论
Flink作业使用yarn.provided.lib.dirs参数指定依赖

yarn.provided.lib.dirs参数如官网所描述，它能够在提交作业时从你指定的HDFS目录中获取依赖，从而不必在每次本地提交作业时都将依赖也一同提交，我们使用下试试，首先将工程依赖包上传至HDFS目录/user/dev/flink-1.14.0-dependency，在提交时加上yarn.provided.lib.dirs参数并指定依赖包所在HDFS目录：/opt/flink-1.14.0/bin/flink run-application \-t yarn-application \

原创 2021-12-17 11:31:22 · 6045 阅读 · 0 评论
CDH开启kerberos报错：Ticket expired

我是参考cloudera官方文档上的开启kerberos向导做的，地址：https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/security-kerberos-authentication/topics/cm-security-kerberos-enabling-step4-kerberos-wizard.html开启过程中，最后的启动集群步骤开始报错，报错的服务有kafka、hbase、JobHistory等，相关日志如下：kafka、hb

原创 2021-08-19 17:13:28 · 1027 阅读 · 0 评论
Linkin-1.0.0提交spark任务到HDP环境报错:failed to request external resource provider

linkis-1.0.0部署到hdp集群，执行spark任务时候报错如下：找到日志linkis-cg-linkismanager.log可以看到一些错误日志，如图所示：于是开启linkis-cg-linkismanager服务的远程debug，跟踪到源码，当用linkis-cli提交spark任务时候，debug会执行到com.webank.wedatasphere.linkis.resourcemanager.external.yarn类里面的requestResourceInfo()方法，.

原创 2021-08-19 11:22:35 · 627 阅读 · 0 评论

大数据

作者: 头顶榴莲树

基于Prometheus+Grafana实现对Tomcat监控

CDH6.x安装教程(附带整合kerberos)

Hive+Zookeeper+Kerberos配置HA方法

HDP-3.1.5.0-152环境与hudi-0.9.0兼容性问题

HDP-3.1.5集成DolphinScheduler-1.3.9

There is no available StoreManager of type “rdbms“-HDP-3.1.5集成Spark-3.1.1报错

CDH完全卸载教程

Structured Streaming消费带kerberos认证的kafka问题解决

滴滴kafka-manager监控CDH版kafka(带kerberos认证)

FlinkSQL消费Kafka写入Hive表

CDH重新初始化Hive元数据库

FlinkSQL流式关联Hbase大表方案(走二级索引)

java连接phonix报错：KeeperErrorCode = NoNode for /hbase/hbaseid

hdp集成apache spark提交任务时报错:bad substitution

Hive on Tez : How to control the number of Mappers and Reducers

kylin-4.0.1启动报错：NoSuchMethodError: org.apache.tomcat.JarScanner.scan

Spark提交报错：1 node(s) are excluded in this operation

Spark作业一直处于ACCEPTED状态

Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration

hive查询报错readDirect unsupported in RemoteBlockReader

插入数据到hive hbase映射表报错RegionTooBusy

IDEA本地执行Spark报错：is not a valid DFS filename

Ranger环境下的Atlas启动异常AccessControlException: Permission denied

kafka指定时间范围消费一批topic数据

Flink on Yarn 日志存储位置

Could not find any format factory for identifier ‘parquet‘ in the classpath

HPLSQL连接Hive(Kerberos认证)指南

离线安装elasticdump

npm install 报错解决

记录一次HDFS JN迁移异常处理

NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Lja

HDP环境的kafka如何开启JMX

HDP-3.1环境kafka主题无法删除问题解决方案

Flink任务OOM问题

cdh安装教程

Flink接收Kafka中的Avro序列化消息

Flink on Yarn报错：Container released on a *lost* node

Flink作业使用yarn.provided.lib.dirs参数指定依赖

CDH开启kerberos报错：Ticket expired

Linkin-1.0.0提交spark任务到HDP环境报错:failed to request external resource provider

Flink on Yarn报错：Container released on a lost node