windows搭建flume:基于源码的二次开发

先说一下flume的架构,这部分快速阅读,flume架构倒是不难,容易理解。
flume是分布式的,可靠的,高可用的,用于对不同来源的大量的日志数据进行有效收集、聚集和移动,并以集中式的数据存储的系统。
flume目前是apache的一个顶级项目。
flume中的重要模型
1.flume Event:
flume 事件,被定义为一个具有有效荷载的字节数据流和可选的字符串属性集。
2.flume Agent:
flume 代理,是一个进程承载从外部源事件流到下一个目的地的过程。包含source channel 和 sink。
3.Source
数据源,消耗外部传递给他的事件,外部源将数据按照flume Source 能识别的格式将Flume 事件发送给flume Source。
4.Channel
数据通道,是一个被动的存储,用来保持事件,直到由一个flume Sink消耗。
5.Sink
数据汇聚点,代表外部数据存放位置。发送flume event到指定的外部目标。
flume基本配置
#example.conf:单节点Flume配置
#命名Agenta1的组件
a1.sources=r1
a1.sinks=k1
a1.channels=c1
#描述/配置Source
a1.sources.r1.type=netcat
a1.sources.r1.bind=0.0.0.0
a1.sources.r1.port=44444
#描述Sink
a1.sinks.k1.type=logger
#描述内存Channel
a1.channels.c1.type=memory