Flume【使用篇】03：采集网站日志上传至HDFS

做一个有趣的人Zz

已于 2025-06-10 09:11:59 修改

阅读量1.6k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： flume 大数据工程师的成长之路文章标签： hadoop flume

于 2022-03-04 08:50:57 首次发布

本文链接：https://blog.csdn.net/weixin_40612128/article/details/123237133

大数据工程师的成长之路同时被 2 个专栏收录

136 篇文章 ¥69.90 ¥99.00

订阅专栏

flume

40 篇文章 ¥29.90 ¥99.00

订阅专栏

该博客介绍了如何使用Flume在bigdata02和bigdata03上配置Agent，将实时产生的网站日志数据采集并汇总到bigdata04的HDFS中。通过ExecSource读取新增日志，使用Avro进行高效传输，HDFSSink按天动态创建目录。配置涉及Flume的source、channel和sink，以及启动顺序和数据生成脚本。Flume的hdfs.useLocalTimeStamp属性用于从header中抽取时间戳。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面我们讲了两个案例的使用，接下来看一个稍微复杂一点的案例：
需求是这样的，

1、将A和B两台机器实时产生的日志数据汇总到机器C中
2、通过机器C将数据统一上传至HDFS的指定目录中

注意：HDFS中的目录是按天生成的，每天一个目录

看下面这个图，来详细分析一下

在这里插入图片描述

根据刚才的需求分析可知，我们一共需要三台机器
这里使用bigdata02和bigdata03采集当前机器上产生的实时日志数据，统一汇总到bigdata04机器上。

其中bigdata02和bigdata03中的source使用基于file的source，ExecSource，因为要实时读取文件中的新增数据，channel在这里我们使用基于内存的channel，因为这里是采集网站的访问日志，就算丢一两条数据对整体结果影响也不大，我们只希望采集到的数据可以快读进入hdfs中，所以就选择了基于内存的channel。

由于bigdata02和bigdata03的数据需要快速发送到bigdata04中，为了快速发送我们可以通过网络直接传输，sink建议使用avrosink，avro是一种数据序列化系统，经过它序列化的数据传输起来效率更高，并且它对应的还有一个avrosource，avrosink的数据可以直接发送给avrosource，所以他们可以无缝衔接。

这样bigdata04的source就确定了使用avrosource、chan

了解本专栏