
Hadoop这个名字不是一个缩写,而是一个虚构的名字。该项目的创建者,Doug Cutting解释Hadoop的得名 :
“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子恰恰是这方面的高手。”

1、HADOOP出现的前提环境
最近十年间互联网数据量呈几何倍数增长, 随着企业产生和收集的数据越来越多,在认知层面企业对于数据的重视程度就越来越重。但是呢这样就带来几个问题,
1)怎样存储这样大量的数据
2)怎样处理存储的数据
3)怎么提升处理效率
4)在数据量持续增长的情况下如何构建一个解决方案
这几个问题就是咱们的HADOOP中要去重点解决的几个问题。针对此类情况在大数据领域就提出了两个概念,
1)分布式文件系统 用于存储大量的数据
2)分布式计算框架 MapReduce 它的作用就是高效的处理数据
这是咱们大数据领域里两个非常重要的概念,这两部分又组成了一个名词,就叫做HADOOP。
就是通过分布式文件系统来存储大量数据,然后用MapReduce框架进行高效的数据分析和处理。
这就是HADOOP出现的一个前提环境。

那么HADOOP到底是如何产生的呢?是被谁发明的呢?它的起源到底来自于哪呢?咱们接下来就去了解一下HADOOP的起源。
2、HADOOP起源
Hadoop由Doug Cutting作为Lucene的子项目Nutch的一部分正式创立。
这个项目是干什么的呢?就是要把他们从网页上爬取的数据存储到一个可靠地分布式计算框架系统中,但是当时没有实现,这时候怎么做呢?当时谷歌发布了三篇论文,其中有一篇叫做:GFS 就是分布式存储系统,另一篇叫做:MapReduce 即分布式计算框架,以及最后一篇:BigTable
当时的这家公司就是借鉴了谷歌的论文里的一些思想和观点,开发出了自己分布式存储系统和计算系统。

3、HADOOP优缺点
与其他的分布式系统比较,
1)Hadoop集群的数据首先先进行分布式存储,存储效率比较高效
2)Hadoop集群上通过HDFS分布式文件系统,会把存储的数据复制多份,保证了数据的安全性
3)提供了一个简单的易用的分布式计算框架
4)Hadoop扩展容易,扩展性非常强,使用廉价的PC机就可以搭建出集群环境

4、HADOOP版本
Hadoop存在版本的区别:
Hadoop1x版本中核心组件就是HDFS/MapReduce
Hadoop2x版本依然存在HDFS/MapReduce,新增加了一个YARN.

5、YARN介绍
1)在传统意义上理解为云操作系统,即为资源管理器,管理集群中的资源,在增加了YARN操作系统之后,MapReduce任务就可以跑在YARN平台上,通过YARN平台进行MapReduce任务的管理,资源的分配。
2)通过YARN不仅可以跑MapReduce,还能运行Spark任务,Spark可以读取HDFS上的文件,很好的兼容了其他的应用。

6、Hadoop生态圈介绍
1)数据的来源
在企业中一般数据的来源分为两种,第一种是企业内部数据(结构化数据),例如业务数据(保存在关系型数据库中)、应用的服务器日志(日志文件);第二种是外部获得(非结构化数据),比如用户的行为记录(推荐系统),通过搜索的关键字、消费记录等进行统计。
2)数据清洗
Hive 清洗完成的数据放在传统的数据库中进行保存,通过sqoop进行数据的导入和导出(相当于一个传统型数据库的桥梁)。
日志文件的拉取和存储:flume,作为一款日志收集工具,可以把日志进行收集;
用户记录的拉取和存储HBASE数据库。
3)集群
搭建本地集群后,保证集群的一致性和统一性,可以使用zookeeper完成集群的协调统一。

7、Hadoop使用案例
现在使用Hadoop进行数据分析的公司越来越多,主要包括以下几种:
1)为银行和信用卡公司进行欺诈性检测
2)社交媒体的分析
3)电商网站的购物模式分析,用户行为分析
4)城市发展、交通模式识别