Hadoop 的基础知识
1. Hadoop 简介
Hadoop 官网: https://hadoop.apache.org/
Apache Hadoop 软件库是一个框架, 是 Apache 软件基金会的一款开源软件, Java 语言实现的. 允许使用简单的编程模型跨计算机集群分布式处理大型数据集. 它被设计为从单个服务器扩展到数千台机器, 每台机器都提供本地计算和存储. 与其依赖硬件来提供高可用性, 库本身设计用于检测和处理应用程序层的故障, 因此可以在计算机群集上提供高可用服务, 每个计算机群集都可能发生故障.
Hadoop 核心组件:
- Hadoop Common: 支持其他 Hadoop 模块的通用公共程序, 相当于在写项目时所使用的 Util 类的集合.
- Hadoop Distributed File System (HDFS): 提供对应用程序数据的高吞吐量访问的分布式文件系统, 解决海量数据存储.
- Hadoop YARN: 作业调度和集群资源管理的框架, 解决资源任务调度.
- Hadoop MapReduce: 基于 YARN 的大型数据集并行处理系统, 解决海量数据计算.
2. Hadoop 的发展简史
Hadoop 之父: Doug Cutting.
Hadoop 起源于 Ap