【免费】Hadoop基本组件原理总结.docx资源-CSDN下载

需积分: 0 140 浏览量更新于2023-01-23 收藏 1.31MB DOCX 举报

Hadoop是一个开源的分布式计算框架，它源自于Google的GFS（Google文件系统）和MapReduce的灵感。Hadoop在2006年由Apache Nutch项目分离出来，由Doug Cutting以他孩子的一个大象玩具命名。Nutch起初是一个搜索引擎项目，但随着数据规模的扩大，原有的架构无法满足需求。Google的两篇论文——关于GFS和MapReduce的介绍，为Nutch的发展提供了方向，从而诞生了Hadoop的两大核心组件：HDFS（Hadoop Distributed File System）和MapReduce。 HDFS是Hadoop的分布式文件系统，它设计的目标是处理大规模的数据存储。HDFS提供了高容错性和高可用性，能够自动地将数据分布在多台服务器上，即使部分节点故障也能保证数据的完整性。用户可以通过HDFS进行文件的创建、删除和移动等操作，适用于处理和存储大量原始数据和中间计算结果。 MapReduce是Hadoop的分布式计算框架，其设计理念是将大型计算任务分解为多个小任务，分布到集群的各个节点上并行处理，最后再将结果合并。Map阶段将数据切分成键值对，对每个键值对进行函数映射；Reduce阶段则负责收集Map阶段的中间结果，进行聚合计算，生成最终结果。这种“分而治之”的策略显著提高了处理海量数据的效率。除了HDFS和MapReduce，Hadoop还有许多生态系统工具，如YARN（Yet Another Resource Negotiator）用于资源管理和调度，Avro提供数据序列化，Chukwa用于大规模数据收集，Hive提供SQL-like查询，HBase是一个分布式NoSQL数据库，Zookeeper用于分布式协调服务。这些工具协同工作，增强了Hadoop的整体功能。 MapReduce常用于处理各种大数据任务，例如图书馆藏书的清点、单词频率统计等。在这些场景中，MapReduce可以高效地处理大量输入数据，将任务拆分成多个小任务并在分布式环境中并行执行，显著提升了计算速度。 HDFS和MapReduce在Hadoop中的角色至关重要。HDFS作为存储系统，保证了数据的安全性和高吞吐量的读写性能，而MapReduce则作为一个计算引擎，实现了数据的分布式处理，通过将计算任务靠近数据源，减少了网络传输的开销，提高了整体效率。这两者共同构成了Hadoop的核心，使其成为大数据处理领域的基石。

kHadoop 基本组件原理总结

第一章

1、简述 hadoop 平台的发展过程

Hadoop 的出现来源于 Google 的两款产品：GFS 和 Mapreduce。2006 年 3 月份，Map/Reduce 和 Nutch Disrtributed File

System，DNFS）分别被纳入 Hadoop 项目中，Hadoop 主要由 HDFS，MapReduce 和 Hbase 组成。

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop

来源于于 Apach Nutch(一个开源的网络搜索引擎)，是 Apach Lucene（文本搜索引擎库）的一部分。Hadoop 的名字不是英文的缩

写，他是一个虚构的名字，来自于创始人 Doug Cutting 孩子的一个大象玩具的名字。

Nutch 项目开始于 2002 年，一个可工作的抓取工具和搜索系统很快浮出水面。但是此时他们意识到，他们的架构无法扩展

到数十亿网页的网络。在 2003 年 Google 发表的一篇描述分布式文件系统（Google file system 简称 GFS）的论文给了他们启发和

帮助。论文中称 Google 正在使用这个系统。可以解决他们在网络抓取过程中产生大量数据文件的存储需求，因此产生了 Nutch

中的分布式文件系统（NDFS）。在 2004 年，Google 发表了论文，向全世界介绍了 MapReduce，MapReduce 是一种用于数据处

理的编程模型。而 Hadoop 的另外一个核心模块 MapReduce 就是这篇论文的一个具体实现。

Nutch 中的 NDFS 和 MapReduce 实现的应用远不止搜索领域。在 2006 年 2 月，他们从 Nutch 中转移出来一个 Lucene 一个独立的

子项目，称为 Hadoop。大约在同一时间，Dong Cutting 加入雅虎。雅虎提供了一个专门的团队和资源将 Hadoop 发展成为一个可

在网络上运行的系统。2008 年 2 月雅虎宣布其搜索引擎产品可部署在一个 1 万个内核的 Hadoop 集群上。在 2008 年 4 月，Hadoop

打破世界纪录，称为最快排序 1T 数据的系统（不到三分钟），击败了前一年的 297 秒冠军。同年 11 月 Google 在报告中称他的

MapReduce 在执行 1T 数据排序只用了 68 秒。在 2009 年 5 月，报告称雅虎的团队使用 Hadoop 对 1T 数据进行排序只用了 62 秒。

2、简述 Hasoop 名称和及技术来源。

名称：Hadoop 是由道格.卡丁虚构出来的一个名字。

技术来源：hadoop 来源于 Google 的三篇论文：GFS、MapReduce、BigTable。最初搭建的 hadoop 系统就是从这三篇论文出发的。

3、简述 Hadoop 的体系架构。

Hadoop 是实现了分布式并行处理任务的系统框架，其核心组成是 HDFS 和 MapReduce 两个子系统，能够自动完成大任务计算和

大数据储存的分割工作。Hadoop 有众多子集。例如：Common、Yarn、Avro、Chukwa、Hive、Hbase、Zookeeper 等。这些生态

工具对 Hadoop 起到了良好的补充作用。

HDFS 系统是 Hadoop 的储存系统，能够实现创建文件、删除文件、移动文件等功能，操作的数据主要是要处理的原始数据以及

计算过程中的中间数据，实现高吞吐量的数据读写。MapReduce 系统是一个分布式计算框架，主要任务就是利用廉价的计算机

剩余20页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源评论

shsh1234567890

粉丝: 4

最新资源