码爸-CSDN博客

原创 spark mongo Cannot cast STRING into a NullType (value: BsonString{value=‘fQhjMW8erDc0njFI‘}

Cannot cast STRING into a NullType

2025-05-26 15:10:15 132

原创 scala flink 实现自定义水位线，定时生成水位线

自定义水位线，定时生成

2025-02-26 18:13:27 296

原创 kafka负载均衡迁移（通过kafka eagle）

命令：sh /usr/hdp/current/kafka-broker/bin/kafka-topics.sh --zookeeper hk-hdfs-util:2181 hk-hdfs-master01:2181 hk-hdfs-master02:2181 --topic。1 进入磁盘使用率高的机器/kafka-logs，通过du -h找一个数据量大的topic：这里以my_topic为例。4 将使用率多的机器中的副本修改为使用率少的kafkaid之后，把修改后的kafka分区文件放到。

2024-09-23 17:28:27 685

原创读csv批量写mongo

【代码】读csv批量写mongo。

2024-09-20 10:34:25 273

原创 hbase merge工具

1、当个region不宜过大，如果两个合并后超过当个region 的最大值，比如7G+7G=14G，超过region配置的最大值10G，这样的话哪怕合并了，也会重新分裂。在hbase中，表中可能会存在很多小的region，如果不需要那么多小的region，可以将他们就行合并。2、必须要相邻的两个region，才可以执行命令，不明白原理，不可随意修改代码。代码的逻辑是将相邻的两个小region进行合并，需要注意以下几点。

2024-09-20 10:25:12 498

原创 hbase 使用复制表，使用存在表的结构

hbase 表结构复制

2024-09-20 10:18:18 238

原创 flink kafka sink （scala）

将对象数据通过Gson 转为jsonString，在将数据写到kafka中，这个可以根据需要修改，比如按照\t分开也行，可以节省字段名称的空间。那么如果需要减少Gson的创建，可以自定义map函数，继承并实现RichMapFunction中的方法，其中open就可以只创建一次Gson。这里还有一个问题，就是每来一条数据都需要new Gson 对象，有没有办法减少创建呢。我们知道job 和task之间是不能够传输序列化的对象的。

2024-09-19 13:37:48 754 1

原创 doris 自定义StreamLoad，批量写入doris

if (data.nonEmpty) dorisStreamLoad.sendData("doris中的表名，不需要传库名", gson.toJson(data))将对象放到list中，使用Gson，变为jsonString。

2024-09-19 11:50:26 773

原创 hadoop 统计hdfs中ssd使用情况

if (!} else {

2024-09-19 11:42:03 684

原创 flink 批量压缩redis集群 sink

idea maven依赖。

2024-09-19 11:37:57 514

原创 flink 批量写clickhouse

withBatchSize(20000).build(), //20s一批或20000条数据，那个先达到都执行sink。//还有其他字段接着set ps.setSTring(3, v.XXX!idea maven 依赖。

2024-09-19 11:33:43 684

原创 flink doris批量sink

name("数据写入doris")idea maven 依赖。

2024-09-19 11:26:59 680

原创 flink hbase 批量sink

【代码】flink hbase 批量sink。

2024-09-19 11:16:40 371

原创时间转换函数（scala）

【代码】时间转换函数（scala）

2024-09-19 11:08:14 399

原创 flink自定义process，使用状态求历史总和（scala）

fink 自定义procee 状态

2024-09-19 10:55:22 600 1

原创 flink 例子（scala）

/env.setStateBackend(new RocksDBStateBackend(s"hdfs://${namenodeID}", true))//hdfs 作为状态后端。env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime) //处理时间。props.setProperty("bootstrap.servers", "host:6667")//有些是9092端口。//.id("自定义id，不加会自动生成")

2024-09-18 15:15:23 1026

原创使用代码批量执行doris sql

执行doris sql

2024-09-18 14:57:51 490

原创 java 执行es中的sql

/ 正确处理响应实体。

2024-09-18 14:51:10 786

原创 spark 读es

/.master("local[1]") //本地跑打开。idea maven 依赖。

2024-09-18 14:47:29 580

原创 spark 读clickhouse

/builder.master("local[1]") 本地跑打开。

2024-09-18 14:40:03 416

原创 spark 写mongo

val updateList = new java.util.ArrayList[UpdateOneModel[Document]]() //用于批量写入。val mongoURL = s"mongodb://账号:密码@机器ip:27017"//builder.master("local[1]") 本地跑打开。

2024-09-18 14:34:23 694