Hive最全介绍：架构、数据模型和语法

Cachel wood

于 2025-06-26 11:55:24 发布

阅读量1.2k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：大数据开发文章标签： hive 架构 hadoop 数据结构算法动态规划

本文链接：https://blog.csdn.net/weixin_46530492/article/details/148922385

大数据开发专栏收录该内容

17 篇文章

订阅专栏

文章目录

一、Hive 概述

1. 定义与定位

Hive 是 Apache 开源的数据仓库工具，基于 Hadoop 构建，提供类似 SQL 的查询语言（HiveQL），将 SQL 转换为 MapReduce、Tez 或 Spark 任务执行。
核心目标：让数据分析人员无需编写 Java 代码，通过 SQL 高效处理大规模数据。

2. 主要特点

基于 HDFS：数据存储在 HDFS 中，支持分布式处理。
批处理为主：适合离线分析，不支持实时查询（延迟较高）。
元数据管理：通过 Metastore 管理表结构和分区信息。
扩展性：支持自定义 UDF、UDAF 和 SerDe（序列化/反序列化）。

二、Hive 架构与组件

1. 核心组件

用户接口 → HiveServer2 → 编译器 → 执行引擎 → Hadoop
                          ↑
                          |
                       Metastore

用户接口：CLI（命令行）、Beeline（JDBC客户端）、Thrift Server、Web UI。
HiveServer2：支持多客户端并发访问和认证，是 Hive 的服务端。
编译器：将 HiveQL 转换为 MapReduce/Tez/Spark 任务的 DAG。
执行引擎：调度和执行任务，支持多种引擎（MapReduce 默认，或 Tez/Spark）。
Metastore：存储表结构、分区、SerDe 等元数据，默认使用内嵌 Derby 数据库，生产环境推荐 MySQL。

2. Metastore 详解

作用：
- 存储表的元数据（列名、类型、分区信息等）。
- 管理数据位置（HDFS路径）和访问权限。
模式：
- 内嵌模式：使用 Derby 数据库，仅支持单客户端（开发测试用）。
- 本地模式：使用外部数据库（如 MySQL），但 Metastore 与 Hive 服务同一节点。
- 远程模式：Metastore 作为独立服务，支持多客户端共享（生产环境常用）。

三、数据模型与表类型

1. 基本表类型

内部表（Managed Table）：
- Hive 完全管理数据的生命周期（创建/删除表时自动处理数据）。
- 默认存储路径：/user/hive/warehouse/<db_name>.db/<table_name>。
外部表（External Table）：
- 数据由用户管理，删除表时仅删除元数据，不影响实际数据。
- 使用 EXTERNAL 关键字创建，需指定 LOCATION。

2. 分区表（Partitioned Table）

原理：按指定字段（如日期、地区）将数据存储在不同目录，查询时可快速过滤。

语法：

CREATE TABLE logs (user_id STRING, action STRING)
PARTITIONED BY (dt STRING, country STRING);

动态分区：通过 INSERT OVERWRITE 自动创建分区（需开启 hive.exec.dynamic.partition）。

3. 分桶表（Bucketed Table）

原理：按哈希值将数据分到多个文件（桶），提升 JOIN 和采样性能。

语法：

CREATE TABLE users (id INT, name STRING)
CLUSTERED BY (id) INTO 4 BUCKETS;

4. 事务表（ACID Table）

特性：支持 ACID 特性（原子性、一致性、隔离性、持久性）。
要求：
- 表必须是分桶表。
- 使用 ORC 格式存储。
- 开启 hive.support.concurrency。

四、数据类型与文件格式

1. 基本数据类型

原生类型：TINYINT、SMALLINT、INT、BIGINT、FLOAT、DOUBLE、STRING、BOOLEAN、TIMESTAMP、BINARY。
复杂类型：
- ARRAY：ARRAY<data_type>，如 ARRAY<STRING>。
- MAP：MAP<key_type, value_type>，如 MAP<STRING, INT>。
- STRUCT：STRUCT<field1:type1, field2:type2>，如 STRUCT<name:STRING, age:INT>。

2. 文件格式

TextFile：默认格式，纯文本存储，读写开销大。
SequenceFile：二进制键值对格式，支持压缩。
ORC（Optimized Row Columnar）：列式存储，高性能，支持谓词下推和 ACID。
Parquet：列式存储，适合嵌套数据，与 Spark、Impala 兼容。

性能对比：

读写性能：ORC > Parquet > SequenceFile > TextFile
压缩率：Parquet ≈ ORC > SequenceFile > TextFile

五、HiveQL 核心语法

1. 数据定义（DDL）

-- 创建数据库
CREATE DATABASE IF NOT EXISTS mydb;

-- 创建内部表
CREATE TABLE users (id INT, name STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

-- 创建外部表
CREATE EXTERNAL TABLE logs (ts BIGINT, msg STRING)
LOCATION '/data/logs';

-- 创建分区表
CREATE TABLE sales (product STRING, amount DOUBLE)
PARTITIONED BY (dt STRING);

-- 查看表结构
DESCRIBE FORMATTED users;

2. 数据操作（DML）

-- 加载数据
LOAD DATA INPATH '/data/users.csv' INTO TABLE users;

-- 插入数据
INSERT INTO TABLE sales PARTITION (dt='2023-01-01') VALUES ('apple', 100.0);

-- 查询并插入
INSERT OVERWRITE TABLE sales_by_product
SELECT product, SUM(amount) FROM sales GROUP BY product;

3. 查询语法

-- 基本查询
SELECT name, age FROM users WHERE age > 18 LIMIT 10;

-- JOIN
SELECT u.name, o.order_id
FROM users u
JOIN orders o ON u.id = o.user_id;

-- 聚合函数
SELECT dt, COUNT(*) AS cnt FROM logs GROUP BY dt HAVING cnt > 100;

-- 窗口函数
SELECT name, salary, RANK() OVER (ORDER BY salary DESC) AS rank
FROM employees;

六、Hive 高级特性

1. UDF（用户定义函数）

分类：
- UDF：输入一行，输出一行（如字符串处理）。
- UDAF：输入多行，输出一行（如 SUM、COUNT）。
- UDTF：输入一行，输出多行（如 EXPLODE 展开数组）。
开发步骤：
1. 继承 UDF 类并重写 evaluate 方法。
2. 打包为 JAR 并添加到 Hive 环境。
3. 使用 CREATE TEMPORARY FUNCTION 注册函数。

2. 谓词下推（Predicate Pushdown）

原理：将过滤条件（如 WHERE 子句）下推到数据读取阶段，减少传输和处理的数据量。
启用方式：SET hive.optimize.ppd=true;

3. 向量化查询执行

原理：批量处理数据（通常 1024 行/批），减少函数调用开销，提升 CPU 缓存利用率。
启用方式：SET hive.vectorized.execution.enabled=true;

4. 并行执行

原理：允许 Hive 在无依赖的任务间并行执行，加速查询。
启用方式：SET hive.exec.parallel=true;

七、Hive 性能优化

1. 数据存储优化

使用列式存储：ORC/Parquet 减少 I/O 和内存使用。
合理分区与分桶：避免数据倾斜，加速过滤和 JOIN。
压缩数据：使用 SNAPPY/LZ4 压缩（平衡 CPU 和 I/O）。

2. 查询优化

小表 JOIN 大表：使用 /*+ MAPJOIN(small_table) */ 提示将小表加载到内存。
避免全表扫描：利用分区剪枝（如 WHERE dt = '2023-01-01'）。
减少 Shuffle：通过 SET hive.groupby.skewindata=true 处理数据倾斜。

3. 执行引擎选择

MapReduce：默认引擎，稳定性高但启动开销大。
Tez：支持 DAG 执行，减少中间结果落地，适合复杂查询。
Spark：内存计算，速度快，适合迭代计算。

八、Hive 与其他工具对比

工具	查询语言	处理模式	延迟	适用场景
Hive	SQL-like	批处理	分钟级	离线数据分析
Impala	SQL	实时	亚秒级	交互式查询
Presto	SQL	实时	亚秒级	跨数据源联合查询
Spark SQL	SQL	批处理/流	秒级	内存计算、流处理