大数据处理系统架构
大数据处理系统面临挑战
- 如何利用信息技术等手段处理非结构化和半结构化数据
- 如何探索大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模
- 数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响
大数据处理系统架构特征
- 鲁棒性和容错性
- 低延迟读取和更新能力
- 横向扩容
- 通用性
- 延展性
- 即席查询能力
- 最少维护能力
- 可调式性
Lambda架构
Lambda架构用于同时处理离线和实时数据,可容错,可扩展的分布式系统,具备强鲁棒性和低延迟和持续更新。
Lambda架构分为三层:批处理层、加速层、服务层
批处理层核心功能:存储数据集和生成Batch View
主数据集中数据必须具备以下三个属性:数据是原始的、数据是不可变的、数据永远是真实的
Lambda架构优缺点:
优点:容错性好,查询灵活度高,易伸缩、易扩展
缺点:全场景覆盖带来的编码开销,针对具体