深入探索ApacheHive：从容器化到Kubernetes部署

### 深入探索 Apache Hive：从容器化到 Kubernetes 部署 #### 1. Apache Hive 简介 Apache Hive 最初由 Facebook 开发，后被捐赠给 Apache 软件基金会。像 Netflix 和 FINRA 等组织使用 Hive 来查询分布式存储系统（如 Hadoop 的 HDFS 和 Amazon S3）中的海量结构化数据。Hive 通过提供标准 SQL 接口，简化了查询大数据通常所需的复杂 MapReduce 作业。虽然 Hive 不是数据库，但它能够将模式应用于存储在 HDFS 或兼容 S3 的存储中的任何结构化数据。Amazon 的 AWS 提供了包含 Hive 版本的 Elastic MapReduce 服务。 Apache Hive 使组织能够利用大量未由正式数据库管理系统管理的结构化数据、稳定的物联网数据流、遗留系统的导出数据以及临时数据摄取。通过在庞大的数据湖之上提供 SQL 接口、元数据和模式，Hive 降低了进行数据科学活动（包括商业分析、商业智能和机器学习）的复杂性和工作量。 #### 2. 容器化 Apache Hive 为了让 Apache Hive 能更好地与 Kubernetes 集成并进行本地实验，我们需要构建一个自定义容器。具体步骤如下： 1. **创建目录并下载文件**： ```bash mkdir -p apk8s-hive/src cd apk8s-hive curl -L http://mirror.cc.columbia.edu/pub/software/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz -o ./src/apache-hive-3.1.2-bin.tar.gz curl -L http://archive.apache.org/dist/hadoop/common/hadoop-3.1.2/hadoop-3.1.2.tar.gz -o ./src/hadoop-3.1.2.tar.gz tar -xzvf ./src/apache-hive-3.1.2-bin.tar.gz -C ./src tar -xzvf ./src/hadoop-3.1.2.tar.gz -C ./src ``` 2. **添加 JAR 文件扩展功能**： ```bash export HIVE_LIB=$(pwd)/src/apache-hive-3.1.2-bin/lib export MIRROR=https://repo1.maven.org/maven2 curl $MIRROR/org/apache/hadoop/hadoop-aws/3.1.1/hadoop-aws-3.1.1.jar -o $HIVE_LIB/hadoop-aws-3.1.1.jar curl $MIRROR/com/amazonaws/aws-java-sdk/1.11.406/aws-java-sdk-1.11.307.jar -o $HIVE_LIB/aws-java-sdk-1.11.307.jar curl $MIRROR/com/amazonaws/aws-java-sdk-core/1.11.307/aws-java-sdk-core-1.11.307.jar -o $HIVE_LIB/aws-java-sdk-core-1.11.307.jar curl $MIRROR/com/amazonaws/aws-java-sdk-dynamodb/1.11.307/aws-java-sdk-dynamodb-1.11.307.jar -o $HIVE_LIB/aws-java-sdk-dynamodb-1.11.307.jar curl $MIRROR/com/amazonaws/aws-java-sdk-kms/1.11.307/aws-java-sdk-kms-1.11.307.jar -o $HIVE_LIB/aws-java-sdk-kms-1.11.307.jar curl $MIRROR/com/amazonaws/aws-java-sdk-s3/1.11.307/aws-java-sdk-s3-1.11.307.jar -o $HIVE_LIB/aws-java-sdk-s3-1.11.307.jar curl $MIRROR/org/apache/httpcomponents/httpclient/4.5.3/httpclient-4.5.3.jar -o $HIVE_LIB/httpclient-4.5.3.jar curl $MIRROR/joda-time/joda-time/2.9.9/joda-time-2.9.9.jar -o $HIVE_LIB/joda-time-2.9.9.jar curl $MIRROR/mysql/mysql-connector-java/5.1.48/mysql-connector-java-5.1.48.jar -o $HIVE_LIB/mysql-connector-java-5.1.48.jar ``` 3. **创建配置文件模板**：创建 `hive-site-template.xml` 文件，内容如下： ```xml <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://MYSQL_ENDPOINT/objectmetastore?createDatabaseIfNotExist=true&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>MYSQL_USER</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>MYSQL_PASSWORD</value> </property> <property> <name>fs.s3a.endpoint</name> <value>S3A_ENDPOINT</value> </property> <property> <name>fs.s3a.access.key</name> <value>S3A_ACCESS_KEY</value> </property> <property> <name>fs.s3a.secret.key</name> <value>S3A_SECRET_KEY</value> </property> <property> <name>fs.s3a.path.style.access</name> <value>S3A_PATH_STYLE_ACCESS</value> </property> </configuration> ``` 4. **创建入口脚本**：创建 `entrypoint.sh` 脚本，内容如下： ```bash #!/bin/bash # provide ample time for other services to come online sleep 10 # configuration file location HIVE_CONF="/opt/hive/conf/hive-site.xml" # template replacements for v in \ MY ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

深入探索ApacheHive：从容器化到Kubernetes部署

相关推荐

专栏目录

深入探索ApacheHive：从容器化到Kubernetes部署

相关推荐

【云原生微服务架构】容器化与Kubernetes部署：从环境准备到CI/CD及监控的安全高效系统构建教程

【数据库管理】基于Kubernetes的ClickHouse集群部署与管理：容器化数据分析平台的构建和优化如何在Kubernetes

探索Docker：从零开始构建与部署容器化应用

Docker五周年生日庆典：探索容器化与Kubernetes基础

microservice:从零开始学习Kubernetes Docker DevOps和头盔图表（kubeadm）

深入探索：从容器化到容器编排

深入探索：container-hooks在Kubernetes中的应用

Kubelog: 深入探索HTML与Kubernetes的日志管理

深度探索：从Docker到Kubernetes实战指南

深入理解Docker：容器化技术与Kubernetes的关系

一口气带你入门 MQTT 协议

[ICLR 2025 (Oral ) ] Our OpenYOLO3D model achieves state-of-

专栏目录

最新推荐

自适应复杂网络结构中的同步现象解析

OpenVX：跨平台高效编程的秘诀

语音情感识别：预加重滤波器与清音影响分析

利用大数据进行高效机器学习

具有多重时滞和不确定参数的CRDNNs的无源性与同步性研究

言语节奏与大脑定时模式：探索神经机制与应用

SSH连接与操作全解析

计算机视觉中的概率图模型：不完整数据下的贝叶斯网络学习

HNPU-V1：自适应DNN训练处理器的技术解析与性能评估

网络数据上的无监督机器学习