大数据中的数据采集
结构化数据采集
CDC(Change Data Capture 变更数据捕获)
Batch
Stream
Tools
非结构化数据采集
特性/工具 | Logstash | Flume | Filebeat |
---|---|---|---|
主要用途 | 数据收集、处理和传输 | 日志和事件数据传输 | 轻量级日志采集 |
设计用途 | 广泛的日志处理和转换 | 分布式日志采集和传输 | 将日志和文件数据转发至中心化存储 |
数据源 | 各种输入插件(文件、syslog、TCP/UDP等) | 主要是日志和事件数据 | 文件系统上的日志文件 |
数据处理 | 支持丰富的过滤和变换功能(Groks、Mutate等) | 分拣和简单的格式转换 | 不具有复杂的处理能力,主要进行简单格式处理 |
扩展性 | 可以通过插件进行扩展 | 高扩展性,适用于分布式环境 | 轻量级,适合于部署在众多服务器节点上 |
配置复杂度 | 比较复杂,通过配置文件定义管道 | 适中,通过配置代理和sources、channels等 | 简单,通过 YAML 文件配置 |
监控和管理 | 外部工具(如Kibana)用于可视化和管理 | Cloudera Manager等工具提供支持 | 与Elasticsearch/Kibana一起使用以达到可视化管理 |
集成系统 | 常见与Elasticsearch配合使用,形成ELK栈 | 与Hadoop生态系统结合使用 | 通常与Elasticsearch结合使用 |
性能 | 重量级,适合复杂处理,但资源占用较高 | 高性能,适合大规模日志运输 | 轻量级,性能高效,对资源消耗低 |
开发者/社区 | Elastic公司,广泛支持和活跃社区 | Apache基金会,成熟的开源项目 | Elastic公司,与Logstash和Elasticsearch集成好 |