
Hadoop
文章平均质量分 93
北漂老男人
你的指尖有改变世界的力量:
【星球力量关注:架构界扫地僧|架构师俱乐部星球】
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop大数据项目全链路数据流转详解 —— 专业术语、架构设计与工程实践
多端标准埋点,日志异步采集,Flume/Kafka解耦,HDFS/Hive存储,MR/Spark清洗,SQL/ML分析,BI报表展现,链路全流程掌控。原创 2025-06-10 00:15:32 · 693 阅读 · 0 评论 -
Hadoop大数据项目全流程实战技术博客
Override// 不合格日志丢弃// 其它接口实现省略采集端初步过滤,减轻下游负担。// JDBC连接MySQL,批量插入,省略实现支持大批量数据高效写入关系库。架构分层、责任清晰:ODS、DWD、DWS、ADS分工明确,底层保全,上层加工,易于扩展和维护。流程标准化、组件解耦:采集、存储、清洗、分析、导出、可视化各司其职,方便替换和升级。调优与扩展并重:参数调优和架构优化同等重要,设计模式让业务扩展更灵活。可视化驱动决策:数据服务最终要落地到业务,驱动产品和运营持续优化。原创 2025-06-11 00:00:00 · 642 阅读 · 0 评论 -
Hadoop技术体系详解与源码剖析
Hadoop通过分布式存储和计算架构,解决了海量数据的存储与处理难题。其设计思想强调分而治之、容错与高扩展性,采用多种设计模式保证系统健壮性。通过与生态系统的集成,Hadoop已成为大数据处理的基石。理解其原理、流程和源码,有助于知其然更知其所以然。口诀速记:名管数映洗合,资节应分布管,副本心跳容错强,生态集成用得广。图文示例如需更深入源码分析与扩展方案,可以参考官方仓库和相关书籍,结合实际场景灵活运用。原创 2025-06-09 11:53:50 · 968 阅读 · 0 评论 -
Hadoop 技术生态全景图:从存储到计算的分布式世界
提供可靠、可扩展的海量存储,是整个生态的基石。作为资源调度核心,允许多种计算框架高效共享集群资源。奠定了分布式批处理的思想(分而治之),但因其性能局限,逐渐被 Spark 等更优引擎替代。通过SQL 抽象层极大简化了大数据分析,主要面向离线批处理。提供基于 HDFS 的低延迟随机读写能力,填补生态在实时访问领域的空白。强大的内存计算框架统一处理批、流、交互式、机器学习等多种工作负载,性能卓越,是当前生态中最活跃的计算引擎之一。为分布式应用提供可靠的协调服务。打通数据源。原创 2025-06-08 14:51:13 · 1279 阅读 · 0 评论 -
一文看懂Hadoop生态:原理、组件对比、技术选型与典型应用
Hadoop生态就像一个大型工厂流水线,由一组可以协同工作的“大数据软件”组成。每个软件负责不同的环节:有的负责存东西、有的负责算东西、有的负责搬运数据、有的负责用SQL查数据,大家一起合作,把原始数据变成有用的信息。HDFS:大仓库,专门存大文件YARN:工厂管家,分配机器资源MapReduce:批量数据处理工人Hive:用SQL查大数据的利器HBase:秒级响应的NoSQL数据库:数据搬运工Hadoop生态是大数据平台的“地基和骨架”。每个组件都像流水线上的工人,各司其职,协同合作。原创 2025-05-29 00:30:00 · 1199 阅读 · 0 评论