【大数据专栏】大数据中的数据采集

大数据中的数据采集

结构化数据采集

CDC(Change Data Capture 变更数据捕获)

Batch


Stream
Tools

非结构化数据采集

特性/工具LogstashFlumeFilebeat
主要用途数据收集、处理和传输日志和事件数据传输轻量级日志采集
设计用途广泛的日志处理和转换分布式日志采集和传输将日志和文件数据转发至中心化存储
数据源各种输入插件(文件、syslog、TCP/UDP等)主要是日志和事件数据文件系统上的日志文件
数据处理支持丰富的过滤和变换功能(Groks、Mutate等)分拣和简单的格式转换不具有复杂的处理能力,主要进行简单格式处理
扩展性可以通过插件进行扩展高扩展性,适用于分布式环境轻量级,适合于部署在众多服务器节点上
配置复杂度比较复杂,通过配置文件定义管道适中,通过配置代理和sources、channels等简单,通过 YAML 文件配置
监控和管理外部工具(如Kibana)用于可视化和管理Cloudera Manager等工具提供支持与Elasticsearch/Kibana一起使用以达到可视化管理
集成系统常见与Elasticsearch配合使用,形成ELK栈与Hadoop生态系统结合使用通常与Elasticsearch结合使用
性能重量级,适合复杂处理,但资源占用较高高性能,适合大规模日志运输轻量级,性能高效,对资源消耗低
开发者/社区Elastic公司,广泛支持和活跃社区Apache基金会,成熟的开源项目Elastic公司,与Logstash和Elasticsearch集成好
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值