
大数据——数据集成工具
文章平均质量分 78
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
友培
感觉数据+AI之美
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kettle Kafka->Msyql Demo
文章目录Kafka->Mysql1 kafka2、传输类型3、打日志4、插入/更新配置Kafka->Mysql做了一个简单的demo,测试从kafka导数据到关系型数据库mysql,首先列出此转换demo流程,加了日志,方便linux控制台打印输出日志1 kafka由于是用公司服务器测试跑的,这边我是先在本地布局,再上传到资源库,然后由服务器那边pan.sh直接调用,kafka这边上传到资源库就会出如下问题,现在还不知道怎么解决(要改jar包)2、传输类型kafka中可原创 2021-09-07 19:14:31 · 620 阅读 · 3 评论 -
DataX3.0学习和测试
文章目录1介绍2支持数据源3组成4核心架构5测试(Mysql<==>Mysql)6测试(Mysql<==>Hive2)6.1Mysql->Hive6.2Hive->Mysql6.3Q&A7测试(Mysql<==>ES5.X)7.1Mysql->ES5.X7.2ES5.X->Mysql7.3Q&A8DataX-Web8.1部署8.2Q&A1介绍DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被原创 2021-09-01 19:29:40 · 1267 阅读 · 2 评论 -
Kettle8.2学习和测试
文章目录1介绍2存储方式3自带设计4组成5测试(Mysql<==>Mysql)6测试(Mysql<==>ES5.x)6.1Mysql->Es6.2Es->Mysql6.3优化7测试(Mysql<==>Hive2)7.1Hive->Mysql7.2Mysql->Hive7.3优化8测试(Kafka2.11<==>ES5.x)8.1Kafka->Es8.2Es->Kafka9记录问题9.1Kettle和ES插件版本对应问题1介原创 2021-08-24 09:46:29 · 981 阅读 · 0 评论 -
Failed to update metadata after 60000ms
记录Canal连接Kafka的一个大坑1、这个应该是canal连接mysql报的超时,不过不影响正确的结果,有知道的大佬希望给予解答2、重点是这个,巨坑,出现这个问题是因为虽然配置了canal的instance.properties中的dynamicTopic,但是canal.mg.topic没有指定,这会导致什么结果呢?会导致你配置dynaTopic的库虽然可以被kafka监听实时拉取到日志,但是导致mysql下的其他库的文件改动日志没有指向地,就会出现上图的第二个错误,一直报错,解决方法就是原创 2021-03-26 12:30:26 · 2877 阅读 · 0 评论 -
数据集成工具——Kettle
文章目录一、kettle概述二、kettle安装部署和使用Windows下安装案例1:MySQL to MySQL案例2:使用作业执行上述转换,并且额外在表stu2中添加一条数据案例3:将hive表的数据输出到hdfs案例4:读取hdfs文件并将sal大于1000的数据保存到hbase中三、创建资源库1、数据库资源库2、文件资源库四、 Linux下安装使用1、单机2、 集群模式案例:读取hive中的emp表,根据id进行排序,并将结果输出到hdfs上五、调优一、kettle概述1、什么是kettleK原创 2021-01-30 16:52:53 · 1952 阅读 · 0 评论 -
Flume学习视频心得(三)自定义拦截器、Source、Sink,企业面试题
文章目录1、自定义拦截器案例1)、需求2)、实现步骤①、Myinterceptor.java,并打包上传到flume的lib目录下②、创建Flume Agent配置文件Myinterceptor.conf③、运行该agent监听(先运行test1、test2,再运行test)④、查看结果2、自定义Source1)、需求2)、实现步骤①、MySource.java,并打包上传到flume的lib目录下②、创建Flume Agent配置文件MySource.conf③、运行该agent④、查看结果3、自定义Si原创 2021-01-29 23:17:17 · 416 阅读 · 0 评论 -
数据集成工具——Canal
文章目录Canal的安装与使用1、Canal的安装1)、MySQL2)、Canal2、Canal的使用1)、准备工作2)、TCP3)、kafkaCanal的安装与使用1、Canal的安装1)、MySQLvim /etc/my.cnf# 加入以下配置[client]default-character-set = utf8[mysqld]character-set-server = utf8collation-server = utf8_general_ci# 打开binloglog-b原创 2021-01-29 17:03:39 · 519 阅读 · 0 评论 -
数据集成工具——FlinkX
文章目录FlinkX的安装与简单使用1、FlinkX的安装1)、上传并解压2)、配置环境变量3)、给bin/flinkx这个文件加上执行权限4)、修改配置文件,设置运行端口2、FlinkX的简单使用1)、MySQLToHDFS2)、MySQLToHive3)、MySQLToHBaseFlinkX的安装与简单使用1、FlinkX的安装1)、上传并解压unzip flinkx-1.10.zip -d /usr/local/soft/2)、配置环境变量3)、给bin/flinkx这个文件加上执行权限原创 2021-01-29 16:56:18 · 1394 阅读 · 0 评论 -
Flume学习视频心得(二)Flume拓扑结构、Flume Agent内部原理、Flume事务
文章目录文章目录1、案例四:实时监控目录下的多个追加文件(flume1.7.0才开始有)1)、需求2)、需求分析3)、实现步骤①、创建Flume Agent配置文件netcatsource_loggersink.conf②、运行③、查看结果补充:为什么不用案例二的exec?2、Flume事务3、Flume Agent内部原理1)、ChannelSelector2)、SinkProcessor4、Flume拓扑结构1)、简单串联案例:①、在test创建Flume Agent配置文件chuanlian.conf原创 2021-01-27 22:50:39 · 366 阅读 · 2 评论 -
数据集成工具——DataX&DataX-Web
文章目录DataX的安装及使用1、Hive通过外部表与HBase表关联1)、hive建表语句:2)、hbase表3)、直接执行查询语句:2、DataX的安装3、DataX的使用1)、stream2stream①、编写配置文件stream2stream.json②、执行同步任务③、执行结果2)、mysql2mysql①、编写配置文件mysql2mysql.json②、执行同步任务3)、mysql2hdfs①、编写配置文件mysql2hdfs.json4)、hbase2mysql5)、mysql2hbase4、原创 2021-01-27 14:42:52 · 3900 阅读 · 9 评论 -
数据集成工具——数据搬运工sqoop
文章目录SQOOP(1.4.6)1、sqoop架构2、SQOOP安装1)、上传并解压2)、修改文件夹名字3)、修改配置文件4)、修改环境变量5)、添加MySQL连接驱动6)、测试3、准备MySQL数据1)、登录MySQL数据库2)、创建student数据库3)、切换数据库并导入数据4)、另外一种导入数据的方式5)、导出MySQL数据库4、import1)、sqoop_mysql_hdfs①编写脚本,保存为sqoop_mysql_hdfs.conf②、执行脚本③、注意事项:2)、sqoop_mysql_hiv原创 2021-01-25 20:06:43 · 864 阅读 · 0 评论 -
Flume学习视频心得(一)Flume基础介绍、架构分析、经典案例
文章目录文章目录1、Flume定义2、基础架构1)、Agent:2)、Source:3)、Sink:4)、Channel:★5)、Event:3、Flume安装(Flume-1.6.0)及介绍1)、安装步骤2)、版本介绍3)、Flume运行agent的命令介绍①、第一种方式②、第二种方式3)、agent的配置文件基本介绍4、案例一:监控端口数据1)、需求2)、需求分析3)、实现步骤①、安装netcat工具补充:介绍netcat的使用②、判断44444端口是否被占用③、创建Flume Agent配置文件net原创 2021-01-24 22:12:10 · 313 阅读 · 0 评论