### Ambari搭建Hadoop知识点详解
#### 一、Ambari简介与HDP平台概述
Ambari是Apache软件基金会旗下的一个开源项目,旨在简化Hadoop集群的部署、管理和监控工作。它提供了用户友好的Web界面,允许管理员通过简单的步骤来安装、配置和监控Hadoop集群中的各种组件和服务。
Hortonworks Data Platform(HDP)是由Hortonworks公司提供的一个全面的大数据分析平台。该平台基于Apache Hadoop构建,并包含了多个重要的Hadoop生态系统项目,如MapReduce、Hadoop Distributed File System (HDFS)、HCatalog、Pig、Hive、HBase、Zookeeper等。此外,Ambari也是HDP平台的重要组成部分之一,用于简化Hadoop集群的管理。
#### 二、HDP平台特性
- **大规模可扩展性**:HDP平台设计时考虑了高性能和可扩展性,能够支持PB级数据量的处理。
- **100%开源**:HDP平台的所有组件均基于开源软件开发,这确保了用户可以自由地定制和扩展其功能。
- **多数据源支持**:HDP支持多种数据格式和来源,使得数据处理更加灵活多样。
- **广泛的社区支持**:由于HDP平台的核心组件均为Apache项目,因此拥有庞大的开发者社区支持,能够持续获得新功能和技术改进。
#### 三、准备阶段详解
##### 1.1 确定stack的兼容性
- 在安装之前,首先需要确认Ambari版本与HDP版本之间的兼容性。例如,如果计划安装和管理HDP 2.3.4或更高版本,则必须使用Ambari 2.2.0或更高版本。
- Ambari并不需要安装Hue或Solr等额外组件,但这些组件可以在安装过程中作为选项添加。
##### 1.2 系统最低需求
- **操作系统要求**:支持的操作系统包括Red Hat Enterprise Linux (RHEL) v7.0、7.1、7.2等。
- **浏览器需求**:建议使用最新版本的Chrome、Firefox或Safari浏览器访问Ambari的Web UI。
- **软件要求**:需要安装OpenSSH Server、OpenJDK 1.7或更高版本以及其他必要的基础软件包。
- **JDK需求**:强烈建议使用OpenJDK 1.7或更高版本,以确保Hadoop集群的最佳性能。
- **数据库要求**:Ambari可以使用MySQL或PostgreSQL作为后端数据库,需要根据实际情况进行配置。
- **内存要求**:每台主机至少需要8GB RAM,对于更大规模的集群,建议增加更多的RAM。
- **包的大小和Inode数要求**:为了确保文件系统的稳定性,建议每个磁盘分区至少有100万Inodes可用。
- **检查最大打开文件描述符**:为了提高系统性能,应确保系统配置文件中设置的最大打开文件描述符数量足够高。
##### 1.3 收集信息
- 收集所有集群节点的IP地址、主机名等基本信息。
- 准备好SSH密钥,以便在集群中的节点间实现免密码登录。
- 确保所有节点的时间同步。
- 检查DNS解析和NSCD设置。
##### 1.4 准备环境
- **设置SSH免密登录**:在集群中的所有节点之间设置SSH免密登录是非常重要的一步,可以大大提高后续配置和管理效率。
- **创建服务账户**:创建专门的服务账户来运行Hadoop服务,有助于提高安全性。
- **开启时间同步(NTP)**:确保集群内各节点的时间同步,这对于日志记录和任务调度非常重要。
- **检测DNS及NSCD**:确保DNS解析正常工作,同时检查NSCD设置,避免因缓存问题导致的故障。
##### 1.5 使用本地仓库
- **获取仓库**:如果网络条件有限,可以通过构建本地仓库的方式下载和安装所需的软件包。
- **搭建本地仓库**:将下载的软件包复制到指定的位置,并创建相应的元数据文件。
- **准备Ambari仓库配置文件**:编辑Ambari的仓库配置文件,指定本地仓库的位置。
#### 四、安装Ambari
##### 2.1 Ambari仓库下载
- 根据不同的操作系统版本下载相应的Ambari仓库文件。
- 例如,在RHEL/CentOS/Oracle Linux 6上,需要下载适用于该操作系统的Ambari仓库文件。
##### 2.2 设置Ambari服务器
- 安装Ambari服务器前,需要配置一些基本的选项,如数据库类型、端口号等。
##### 2.3 开启Ambari服务
- 安装完成后,启动Ambari服务,并通过Web浏览器访问Ambari的管理界面。
#### 五、安装、配置及部署HDP集群
- **登录Apache Ambari**:通过Web浏览器访问Ambari管理界面。
- **启动Ambari安装向导**:按照向导逐步完成集群的安装和配置。
- **指定主节点**:选择一台或多台节点作为集群的主节点。
- **指定从节点及客户端**:指定其他节点的角色,如从节点或客户端。
- **自定义服务**:根据需要调整各服务的配置参数。
- **回顾**:在安装前最后检查一次配置信息。
- **安装、启动及测试**:安装配置完成后,启动集群并进行基本的功能测试。
通过Ambari搭建Hadoop集群是一项涉及多个步骤的过程。从环境准备到最终的集群安装和配置,每个环节都需要仔细规划和执行。遵循上述步骤,可以帮助用户顺利完成Hadoop集群的搭建,并有效管理其日常运维工作。