学习笔记(01):Hadoop大数据从入门到精通-Hadoop的介绍及基本概念
立即学习:https://edu.csdn.net/course/play/3027/50309?utm_source=blogtoedu Hapood三大核心组件 1.HDFS:存储、分布式文件系统 2.MapReduce:分布式编程框架(jar包) 3.Yarn:资源调度管理集群,管理分配硬件资源。 把Hadoop理解为: 1.当作框架(例如tensorflow),专用于大数据处理,而不是Web开发 2.当作服务软件,C/S架构,例如MySQL(使用JDBC调用),缓存服务redis,索引服务solr。可以存储、分析数据。 Hadoop的历史: 1.google三篇论文:GFS/MAPRE 在进入大数据领域时,Hadoop 是一个不可或缺的关键概念。本文将深入探讨Hadoop的基本概念及其在大数据处理中的重要性。 Hadoop 是一个开源框架,由Apache软件基金会维护,旨在高效处理和存储海量数据。它的设计目标是实现容错性和可扩展性,使其能够在廉价硬件上运行,处理PB级别的数据。Hadoop的诞生源于Google的三篇开创性论文:GFS(Google File System)、MapReduce以及BigTable。这些论文揭示了Google如何处理和存储大规模数据的内部机制。 Hadoop 的核心由三个主要组件构成: 1. HDFS(Hadoop Distributed File System):分布式文件系统。HDFS设计为将大文件分块存储在不同的节点上,提供高可用性和容错性。每个数据块都有副本,以防止单点故障。HDFS通过其命名节点(NameNode)管理和跟踪文件系统的元数据,而数据节点(DataNodes)则负责存储实际的数据块。 2. MapReduce:分布式编程模型。MapReduce将复杂的计算任务拆分为两个阶段——Map和Reduce。Map阶段将数据切分成键值对,然后在各个节点上并行处理;Reduce阶段聚合Map阶段的结果,生成最终输出。MapReduce框架简化了编写处理大量数据的应用程序的过程。 3. YARN(Yet Another Resource Negotiator):资源调度器。YARN负责管理整个集群的硬件资源,包括内存和CPU。它为应用程序(如MapReduce)提供了一个统一的资源管理平台,提高了集群的利用率和性能。 理解Hadoop,我们可以将其看作是一个专用于大数据处理的框架,类似于TensorFlow,但并不用于Web开发。同时,Hadoop也可以被视为一种服务软件,采用客户端/服务器(C/S)架构,与MySQL(通过JDBC调用)、Redis缓存服务和Solr索引服务类似,能够存储和分析大量数据。 Hadoop 的发展历史中,Doug Cutting 是一个关键人物。他基于Google的论文实现了分布式存储和处理的概念,并创建了早期的Hadoop。随着时间的推移,Hadoop逐渐发展,其组件不断增加,形成了一个庞大的生态系统,包括HBase(对应于Google的BigTable)等其他项目,覆盖了大数据处理的多个方面。 总结起来,Hadoop 是一个强大的工具,它为大数据的存储和处理提供了可靠的基础。通过HDFS、MapReduce和YARN的组合,Hadoop能够有效地支持大数据的生命周期,从数据的获取、存储到分析和挖掘。对于想要深入理解和掌握大数据技术的人来说,学习Hadoop是至关重要的第一步。



































- 粉丝: 5
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 继电器在电气工程及自动化低压电器中的应用.docx
- 典型网络工程的案例分析.doc
- 全国计算机等考试二C笔试试卷.doc
- 大学计算机实验报告记录样本.doc
- 科大讯飞人工智能定义城市1.0版本发布.docx
- 软件学院软件工程硕士版培养方案终稿单证.doc
- 基于单片机的数字万用表研究设计.doc
- 集团公司大数据平台建设方案.docx
- 南京大学关于机器学习的 PPT 教学课件
- 热电厂建设项目管理控制研究.docx
- 项目管理的难点与对策.doc
- Oracle程序设计.docx
- 不依赖 sk-learn 库的纯 Python 机器学习算法实现
- 基于单片机的抢答器的方案设计书.doc
- 试论大数据环境下的企业财务管理改革路径.docx
- 初中英语教师基于网络平台的自主发展.docx


