
大数据
头顶榴莲树
持续分享大数据技术经验,欢迎交流~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于Prometheus+Grafana实现对Tomcat监控
prometheus+grafana监控tomcat原创 2023-03-13 15:25:30 · 1657 阅读 · 0 评论 -
CDH6.x安装教程(附带整合kerberos)
一、安装前准备设置HOST vi /etc/hosts 关闭防火墙 sudo systemctl disable firewalldsudo systemctl stop firewalld 设置SELinux vi /etc/selinux/config 将SELINUX=enforcing 改为SELINUX=permissive,然后重启服务器,或者执行下面命令: setenforce 0 开启NTP服务 # 安装NTP服务.....原创 2021-02-02 17:50:21 · 5212 阅读 · 10 评论 -
Hive+Zookeeper+Kerberos配置HA方法
一般在cdh上配置,如图:具体的几个配置项如下:hive.server2.support.dynamic.service.discovery=truehive.server2.zookeeper.namespace=hiveserver2_zkhive.zookeeper.quorum=test-hadoop-pc06:2181,test-hadoop-pc07:2181,test-hadoop-pc08:2181hive.zookeeper.client.port=2181hive.serv.原创 2020-12-18 10:20:31 · 2138 阅读 · 0 评论 -
HDP-3.1.5.0-152环境与hudi-0.9.0兼容性问题
集群环境:HDP 3.1.5.0-152Spark 2.3.0(hudi官网要求2.4+)Hudi 0.9.0当前环境执行hudi官网测试代码报错“NoSuchFieldError: NULL_VALUE”,代码如下:def main(args: Array[String]): Unit = { val spark = SparkSession.builder .master("local[2]") .appName("hudi-test")原创 2022-02-18 14:58:02 · 1106 阅读 · 1 评论 -
HDP-3.1.5集成DolphinScheduler-1.3.9
一、环境准备CentOS-7.8、nodejs-16、npm-(nodejs自带)、java-1.8、maven-3.8二、编译从GitHub获取dolphinscheduler-1.3.9源码git clone https://github.com/apache/dolphinscheduler.git -b 1.3.9-release进入源码目录进行编译mvn -U clean install -Prpmbuild -Dmaven.test.skip=true -X编译完原创 2021-11-19 10:11:08 · 3233 阅读 · 3 评论 -
There is no available StoreManager of type “rdbms“-HDP-3.1.5集成Spark-3.1.1报错
详细日志:22/03/29 09:02:47 ERROR Datastore: Exception thrown creating StoreManager. See the nested exceptionThere is no available StoreManager of type "rdbms". Make sure that you have put the relevant DataNucleus store plugin in your CLASSPATH and if defin原创 2022-03-29 17:05:32 · 2191 阅读 · 0 评论 -
CDH完全卸载教程
适用于各版本CDH卸载1、停止集群原创 2021-06-18 13:34:05 · 6066 阅读 · 0 评论 -
Structured Streaming消费带kerberos认证的kafka问题解决
主要错误:SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Server not found in Kerberos database (7) - LOOKING_UP_SERVER)]kafka连接配置如下:val df = spark .readStream .format("kafka")原创 2022-03-01 10:31:56 · 3989 阅读 · 0 评论 -
滴滴kafka-manager监控CDH版kafka(带kerberos认证)
对于CDH环境的kafka,并且带有kerberos认证的,部署kafka-manager时需要注意两点:1、接入集群要用的安全协议配置这里直接给个模板:{ "security.protocol":"SASL_PLAINTEXT", "sasl.mechanism":"GSSAPI", "sasl.kerberos.service.name":"kafka", "sasl.jaas.config":"com.sun.security.auth.module.Krb5LoginMo...原创 2020-12-18 10:11:58 · 1012 阅读 · 4 评论 -
FlinkSQL消费Kafka写入Hive表
flinkSQL消费kafka实时写入hive表原创 2022-10-13 11:08:45 · 7946 阅读 · 4 评论 -
CDH重新初始化Hive元数据库
初始化元数据需要使用cdh hive中的schematool 脚本工具进行初始化,初始化脚本位置为cloudera/parcels/CDH/lib/hive/bin/接下来执行初始化命令./schematool -initSchema -dbType mysql --verbose执行报错:[root@prod-bigdata-pc7 bin]# ./schematool -dbType mysql -initSchema -passWord root -userName root --原创 2021-10-21 09:53:30 · 2587 阅读 · 2 评论 -
FlinkSQL流式关联Hbase大表方案(走二级索引)
我们在做实时数据开发的时候,通常要用spark、flink去消费kafka的数据,拿到数据流后会和外部数据库(Hbase、MySQL等)进行维表关联来把数据流打宽。当然了,有些外部数据库不只是存储维度数据,也会有很多事实数据,并且这些数据更新频繁,数据量巨大,但是我们的Flink流也会去实时的join这些巨大的事实表,这就需要选择一个合适的外部数据库作为支持,这个外部数据库一定要满足海量数据高效的读写性能,这样才能满足实时场景的需求,说到这,我们的目光自然而然的落到了Hbase上,来吧,我们直接上图,下..原创 2022-02-10 16:40:05 · 3686 阅读 · 1 评论 -
java连接phonix报错:KeeperErrorCode = NoNode for /hbase/hbaseid
我的phonix jdbc url连接参数值如下jdbc:phoenix:prod-bigdata-pc10:2181/hbase-unsecure可见我在url中已经指定了zk连接端口和hbase节点等信息,由于我是hdp环境,该环境的hbase在zk上建立的根节点为/hbase-unsecure,所以需要指定实际值,但是实际建立phonix连接时仍旧会到zk上找默认的/hbase节点,并且也发现了在url上指定zk端口也是不生效的。解决:在工程中添加hbase-site.xml文件,并通过原创 2022-02-09 13:02:54 · 3389 阅读 · 0 评论 -
hdp集成apache spark提交任务时报错:bad substitution
__spark_conf__/__hadoop_conf__: bad substitution原创 2022-02-18 14:48:32 · 1865 阅读 · 2 评论 -
Hive on Tez : How to control the number of Mappers and Reducers
Hive on Tez : How to control the number of Mappers and ReducersGoal:How to control the number of Mappers and Reducers in Hive on Tez.Env:Hive 2.1Tez 0.8Solution:1. # of MappersWhich Tez parameters control this?tez.grouping.max-size..转载 2022-01-18 16:58:06 · 548 阅读 · 0 评论 -
kylin-4.0.1启动报错:NoSuchMethodError: org.apache.tomcat.JarScanner.scan
环境:HDP-3.1.5Apache Spark-2.4.7Kylin-4.0.1启动后logs/kylin.out日志如下Caused by: java.lang.NoSuchMethodError: org.apache.tomcat.JarScanner.scan(Lorg/apache/tomcat/JarScanType;Ljavax/servlet/ServletContext;Lorg/apache/tomcat/JarScannerCallback;)V原创 2022-03-29 17:27:31 · 1608 阅读 · 0 评论 -
Spark提交报错:1 node(s) are excluded in this operation
提交spark on yarn作业报错:主要错误信息“There are 1 datanode(s) running and 1 node(s) are excluded in this operation”,有一个datanode被排除1088 [main] INFO org.apache.spark.deploy.yarn.Client - Verifying our application has not requested more than the maximum memory ca原创 2022-02-25 10:59:39 · 2919 阅读 · 0 评论 -
Spark作业一直处于ACCEPTED状态
原因1:集群处于不健康状态打开yarn监控页面,查看nodes 状态如果Unhealthy Nodes列不为0,说明有的节点不健康,可以点进去查看详情,处理完并且集群处于健康状态后可尝试再次提交作业。原创 2022-02-25 13:36:27 · 3326 阅读 · 0 评论 -
Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration
HDP3使用apache版Spark2.4查询hive时报错:Caused by: java.lang.RuntimeException: org.apache.tez.dag.api.TezUncheckedException: Invalid configuration of tez jars, tez.lib.uris is not defined in the configuration at org.apache.hadoop.hive.ql.session.SessionState.st原创 2022-03-24 16:22:09 · 2675 阅读 · 0 评论 -
hive查询报错readDirect unsupported in RemoteBlockReader
readDirect unsupported in RemoteBlockReader原创 2022-10-17 14:15:58 · 539 阅读 · 0 评论 -
插入数据到hive hbase映射表报错RegionTooBusy
hive中使用insert select方式将某普通hive表数据写入一张hive hbase映射表,执行速度很慢,拿到其中一个container的日志发现有报错,错误如下:2022-01-18 17:18:37,730 [INFO] [htable-pool3-t1] |client.AsyncRequestFutureImpl|: id=2, table=test:LCCONT_INS, attempt=6/36, failureCount=251ops, last exception=org.a原创 2022-01-18 17:34:32 · 2381 阅读 · 0 评论 -
IDEA本地执行Spark报错:is not a valid DFS filename
本地执行spark structured streaming 报错,程序代码:def main(args: Array[String]): Unit = { val spark = SparkSession .builder .master("local[2]") .appName("sparkStream2hudi") .getOrCreate() //消费kafka import spark.implicits._原创 2022-02-21 10:31:52 · 2570 阅读 · 2 评论 -
Ranger环境下的Atlas启动异常AccessControlException: Permission denied
环境:HDP-3.1.5Ranger-1.2.0Atlas-1.1.0启动Atlas报错如下:Took 0.9533 secondsjava exceptionERROR Java::OrgApacheHadoopHbaseIpc::RemoteWithExtrasException: org.apache.hadoop.hbase.security.AccessDeniedException: org.apache.hadoop.security.AccessControlEx原创 2021-11-04 16:09:19 · 1347 阅读 · 0 评论 -
kafka指定时间范围消费一批topic数据
public class JavaConsumerTool { /** * 创建消费者 * @return */ public static KafkaConsumer<String, String> getConsumer(){ Properties props = new Properties(); props.put("bootstrap.servers", "127.0.0.1:9092"); .原创 2022-01-18 16:23:03 · 3743 阅读 · 0 评论 -
Flink on Yarn 日志存储位置
有时我们的flink作业中打印太多日志(可能GB级别),在flink job web上加载就会很慢,这时我们想找到job输出的文件存放在哪个节点的目录下,并直接去查看日志文件,但是怎么找呢,来吧我们看下,我有个场景,flink作业中使用System.out.print输出了很多日志,导致在flink job web上加载就很慢,下载该日志时提示有15G,所以干脆不要下载了。我们查看下flink on yarn的作业启动输出信息,找下它的任务在哪几个节点跑,并且找到日志位置信息,我们打开它的yarn任务界面原创 2022-01-13 08:21:18 · 4937 阅读 · 0 评论 -
Could not find any format factory for identifier ‘parquet‘ in the classpath
Could not find any format factory for identifier 'parquet' in the classpath原创 2022-10-11 13:38:18 · 1253 阅读 · 0 评论 -
HPLSQL连接Hive(Kerberos认证)指南
1、下载hplsql安装包:地址:http://www.hplsql.org/download ,当前测试环境CDH为6.3版本,选择下载0.3.17版的就可以2、解压到某路径下,参考官网就行3、配置hplsql-site.xml主要改下hive2的jdbc连接参数:<property> <name>hplsql.conn.hive2conn</name> <value>org.apache.hive.jdbc.HiveDriver;jdbc:hiv原创 2020-12-18 10:24:48 · 625 阅读 · 1 评论 -
离线安装elasticdump
离线安装elasticdump原创 2022-12-02 14:51:34 · 1497 阅读 · 0 评论 -
npm install 报错解决
npm安装cnpm时报各种关于package.json的解析错误,经过多次使用'npm cache clean --force'命令清除缓存再安装后最终报如下错误:npm ERR! code EINTEGRITYnpm ERR! sha1-wgdX/nLucSeOoP89h+XCyjDZ7fg= integrity checksum failed when using sha1: wanted ...原创 2018-03-11 09:21:38 · 108076 阅读 · 7 评论 -
记录一次HDFS JN迁移异常处理
集群环境为CDH6.3.2,现需要将hdfs三个jn中的其中一个迁移到其他节点,当正在CDH管理端操作jn迁移时,误删了目标jn节点上迁移任务刚自动创建的jn数据目录,之后产生了一系列问题,先看下误删jn数据目录后的jn报错日志:2021-06-19 11:43:09,759 INFO org.apache.hadoop.hdfs.qjournal.server.JournalNode: STARTUP_MSG:/*******************************************原创 2021-06-25 09:54:56 · 1538 阅读 · 0 评论 -
NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Lja
Phonix和Hbase版本用的比较高,Phonix是5.0.0-HBase-2.0版,我用JAVA JDBC查询Phonix时报错:Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.security.authentication.util.KerberosUtil.hasKerberosKeyTab(Ljavax/security/auth/Subject;)Z很显然时hadoop auth包版本的问题,于是将hadoop-aut原创 2022-01-14 13:01:51 · 1858 阅读 · 0 评论 -
HDP环境的kafka如何开启JMX
打开HDP上的kafka配置界面,找到kafka-env template配置项,编辑添加export JMX_PORT=9393,该变量指定了JMX服务端口号,修改完成后重启kafka服务即可原创 2022-01-07 16:35:38 · 1417 阅读 · 0 评论 -
HDP-3.1环境kafka主题无法删除问题解决方案
问题描述:使用kafka-topics命令执行--delete操作删除topic无效,集群环境的kafka配置项delete.topic.enable=true,执行完删除操作后topic仍然存在,但是该topic分区的leader却会改变,并且zk的admin/delete_topics节点下并没有创建与该topic同名的子节点,通常执行删除操作后,kafka会在zk的admin/delete_topics节点下创建一个与删除topic同名的子节点以标记该topic已经删除。解决:在zk的admi原创 2022-01-07 14:55:10 · 1315 阅读 · 0 评论 -
Flink任务OOM问题
当我们要读取大表时,例如hive表,很容易出现task内存不够用的情况,当这种情况出现时,任务可能会报出GC异常或者TaskManager心跳异常等,如下:1、java.lang.OutOfMemoryError: GC overhead limit exceeded2、java.util.concurrent.TimeoutException: Heartbeat of TaskManager with id 【containerID】 timed out.这时我们可以观察TaskMana原创 2022-04-13 14:43:18 · 5517 阅读 · 0 评论 -
cdh安装教程
CDH安装超强指南原创 2022-03-24 18:09:45 · 6011 阅读 · 2 评论 -
Flink接收Kafka中的Avro序列化消息
在Flink官网中可以看到flink接收kafka数据的简单示例程序Properties properties = new Properties();properties.setProperty("bootstrap.servers", "localhost:9092");// only required for Kafka 0.8properties.setProperty("zoo...原创 2020-01-09 11:53:54 · 5291 阅读 · 9 评论 -
Flink on Yarn报错:Container released on a *lost* node
flink任务提交到yarn执行几天后报错:2022-01-05 15:09:26,288 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator [] - Completed checkpoint 89574 for job cc0abb4a3cd870b2a9e1abc7235ceb91 (3528 bytes in 610 ms).2022-01-05 15:09:29,544 WARN akka.remote.R原创 2022-01-06 14:48:22 · 2743 阅读 · 0 评论 -
Flink作业使用yarn.provided.lib.dirs参数指定依赖
yarn.provided.lib.dirs参数如官网所描述,它能够在提交作业时从你指定的HDFS目录中获取依赖,从而不必在每次本地提交作业时都将依赖也一同提交,我们使用下试试,首先将工程依赖包上传至HDFS目录/user/dev/flink-1.14.0-dependency,在提交时加上yarn.provided.lib.dirs参数并指定依赖包所在HDFS目录:/opt/flink-1.14.0/bin/flink run-application \-t yarn-application \原创 2021-12-17 11:31:22 · 6045 阅读 · 0 评论 -
CDH开启kerberos报错:Ticket expired
我是参考cloudera官方文档上的开启kerberos向导做的,地址:https://docs.cloudera.com/cdp-private-cloud-base/7.1.5/security-kerberos-authentication/topics/cm-security-kerberos-enabling-step4-kerberos-wizard.html开启过程中,最后的启动集群步骤开始报错,报错的服务有kafka、hbase、JobHistory等,相关日志如下:kafka、hb原创 2021-08-19 17:13:28 · 1027 阅读 · 0 评论 -
Linkin-1.0.0提交spark任务到HDP环境报错:failed to request external resource provider
linkis-1.0.0部署到hdp集群,执行spark任务时候报错如下:找到日志linkis-cg-linkismanager.log可以看到一些错误日志,如图所示:于是开启linkis-cg-linkismanager服务的远程debug,跟踪到源码,当用linkis-cli提交spark任务时候,debug会执行到com.webank.wedatasphere.linkis.resourcemanager.external.yarn类里面的requestResourceInfo()方法,.原创 2021-08-19 11:22:35 · 627 阅读 · 0 评论