自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 spark mongo Cannot cast STRING into a NullType (value: BsonString{value=‘fQhjMW8erDc0njFI‘}

Cannot cast STRING into a NullType

2025-05-26 15:10:15 132

原创 scala flink 实现自定义水位线,定时生成水位线

自定义水位线,定时生成

2025-02-26 18:13:27 296

原创 kafka负载均衡迁移(通过kafka eagle)

命令:sh /usr/hdp/current/kafka-broker/bin/kafka-topics.sh --zookeeper hk-hdfs-util:2181 hk-hdfs-master01:2181 hk-hdfs-master02:2181 --topic。1 进入磁盘使用率高的机器/kafka-logs,通过du -h找一个数据量大的topic:这里以my_topic为例。4 将使用率多的机器中的副本修改为使用率少的kafkaid之后,把修改后的kafka分区文件放到。

2024-09-23 17:28:27 685

原创 读csv批量写mongo

【代码】读csv批量写mongo。

2024-09-20 10:34:25 273

原创 hbase merge工具

1、当个region不宜过大,如果两个合并后超过当个region 的最大值,比如7G+7G=14G,超过region配置的最大值10G,这样的话哪怕合并了,也会重新分裂。在hbase中,表中可能会存在很多小的region,如果不需要那么多小的region,可以将他们就行合并。2、必须要相邻的两个region,才可以执行命令,不明白原理,不可随意修改代码。代码的逻辑是将相邻的两个小region进行合并,需要注意以下几点。

2024-09-20 10:25:12 498

原创 hbase 使用复制表,使用存在表的结构

hbase 表结构复制

2024-09-20 10:18:18 238

原创 flink kafka sink (scala)

将对象数据通过Gson 转为jsonString,在将数据写到kafka中,这个可以根据需要修改,比如按照\t分开也行,可以节省字段名称的空间。那么如果需要减少Gson的创建,可以自定义map函数,继承并实现RichMapFunction中的方法,其中open就可以只创建一次Gson。这里还有一个问题,就是每来一条数据都需要new Gson 对象,有没有办法减少创建呢。我们知道job 和task之间是不能够传输序列化的对象的。

2024-09-19 13:37:48 754 1

原创 doris 自定义StreamLoad,批量写入doris

if (data.nonEmpty) dorisStreamLoad.sendData("doris中的表名,不需要传库名", gson.toJson(data))将对象放到list中,使用Gson,变为jsonString。

2024-09-19 11:50:26 773

原创 hadoop 统计hdfs中ssd使用情况

if (!} else {

2024-09-19 11:42:03 684

原创 flink 批量压缩redis集群 sink

idea maven依赖。

2024-09-19 11:37:57 514

原创 flink 批量写clickhouse

withBatchSize(20000).build(), //20s一批或20000条数据,那个先达到都执行sink。//还有其他字段接着set ps.setSTring(3, v.XXX!idea maven 依赖。

2024-09-19 11:33:43 684

原创 flink doris批量sink

name("数据写入doris")idea maven 依赖。

2024-09-19 11:26:59 680

原创 flink hbase 批量sink

【代码】flink hbase 批量sink。

2024-09-19 11:16:40 371

原创 时间转换函数(scala)

【代码】时间转换函数(scala)

2024-09-19 11:08:14 399

原创 flink自定义process,使用状态求历史总和(scala)

fink 自定义procee 状态

2024-09-19 10:55:22 600 1

原创 flink 例子(scala)

/env.setStateBackend(new RocksDBStateBackend(s"hdfs://${namenodeID}", true))//hdfs 作为状态后端。env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime) //处理时间。props.setProperty("bootstrap.servers", "host:6667")//有些是9092端口。//.id("自定义id,不加会自动生成")

2024-09-18 15:15:23 1026

原创 使用代码批量执行doris sql

执行doris sql

2024-09-18 14:57:51 490

原创 java 执行es中的sql

/ 正确处理响应实体。

2024-09-18 14:51:10 786

原创 spark 读es

/.master("local[1]") //本地跑打开。idea maven 依赖。

2024-09-18 14:47:29 580

原创 spark 读clickhouse

/builder.master("local[1]") 本地跑打开。

2024-09-18 14:40:03 416

原创 spark 写mongo

val updateList = new java.util.ArrayList[UpdateOneModel[Document]]() //用于批量写入。val mongoURL = s"mongodb://账号:密码@机器ip:27017"//builder.master("local[1]") 本地跑打开。

2024-09-18 14:34:23 694

原创 spark读mongodb

val mongoURL = s"mongodb://账号:密码@机器ip:27017"//builder.master("local[1]") 本地跑打开。idea maven依赖。

2024-09-18 14:29:04 861

原创 hbase ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

hbase Master is initializing

2024-06-17 18:23:25 266

原创 es-kibana常用命令

es kibana 常用命令

2024-06-17 17:24:54 768

原创 hdfs 负载均衡,加快速度

hdfs 负载均衡

2024-05-20 11:46:11 355 1

原创 ambari 中启动kafka 报错:too many open file

too many open file

2024-03-13 09:46:30 573

原创 flink 检查点失败,正常运行

检查点失败

2024-01-26 17:47:33 498

原创 flink 提交程序报错No Executor found. Please make sure to export the HADOOP_CLASSPATH environment variable

【代码】flink 提交程序报错No Executor found. Please make sure to export the HADOOP_CLASSPATH environment variable。

2023-08-22 18:15:28 460

原创 scala 读取jar包中的txt文件

scala 代码读取jar包中的文本文件

2023-06-05 13:27:24 377

原创 kotlin 科学计数法Double 转 String

科学计数法Double 转 String

2022-10-27 17:51:21 1205

原创 kibana 启动问题

kibana 启动后 server is not ready yet

2022-10-27 14:34:26 3270

原创 es kibana 通过命令查看index,删除index

es 通过命令查看删除索引

2022-10-27 14:17:33 2077

原创 flink 写hbase 报KeyValue size too large 异常

hbase 报KeyValue size too large 异常

2022-10-11 17:49:01 1206

原创 hadoop简介

hadoop,mapreduce,hdfs,yarn

2022-08-04 14:59:31 2323

原创 启动mongoDB时遇到了错误 Error connecting to 127.0.0.1:27017 :: caused by ::

Error connecting to 127.0.0.1:27017 :: caused by ::

2022-02-16 09:36:28 1554

原创 spark sql 字符串转时间戳

spark sql 字符串转时间戳to_unix_timestamp

2022-02-15 16:42:05 3681

原创 Static methods in interface require -target:jvm-1.8

IDEA编译报错:Static methods in interface require -target:jvm-1.8

2022-02-09 16:50:09 338

原创 kafka 设置topic的数据时间为log日志生成的时间

message.timestamp.type

2022-02-08 10:34:19 2161

原创 flink kafka consumer (scala)自定义反序列化

flink source kafka consumer 自定义反序列化类 继承KafkaDeserializationSchema类

2022-01-25 13:33:20 2111

原创 关于Elasticsearch(es)中使用sql返回结果只有1000条

Elasticsearch(es)中使用sql返回结果只有1000条,想要返回更多的数据可以这样做

2022-01-20 15:38:40 3017

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除