Hive数据处理实战：从安装到数据分析

### Hive数据处理实战：从安装到数据分析 #### 1. Hive安装前提与获取 Hive通常需要一个现有的Hadoop集群来运行。它可以在满足以下条件的任何主机上执行： - 主机上安装了Hadoop（即使没有进程在运行）。 - 设置了`HADOOP_HOME`环境变量，并指向Hadoop的安装位置。 - 将`${HADOOP_HOME}/bin`目录添加到系统或用户路径中。你可以从[http://hive.apache.org/releases.html](http://hive.apache.org/releases.html)下载最新的稳定版Hive。同时，[http://cwiki.apache.org/confluence/display/Hive/GettingStarted](http://cwiki.apache.org/confluence/display/Hive/GettingStarted)的Hive入门指南会提供版本兼容性的建议，一般来说，最新的稳定版Hive、Hadoop和Java应该可以协同工作。 #### 2. Hive安装步骤以下是安装Hive的具体步骤： 1. 下载最新稳定版的Hive，并将其移动到你希望安装的位置： ```bash $ mv hive-0.8.1.tar.gz /usr/local ``` 2. 解压包： ```bash $ tar –xzf hive-0.8.1.tar.gz ``` 3. 设置`HIVE_HOME`变量为安装目录： ```bash $ export HIVE_HOME=/usr/local/hive ``` 4. 将Hive主目录添加到路径变量中： ```bash $ export PATH=${HIVE_HOME}/bin:${PATH} ``` 5. 在HDFS上创建Hive所需的目录： ```bash $ hadoop fs -mkdir /tmp $ hadoop fs -mkdir /user/hive/warehouse ``` 6. 使这两个目录具有组可写权限： ```bash $ hadoop fs -chmod g+w /tmp $ hadoop fs -chmod g+w /user/hive/warehouse ``` 7. 尝试启动Hive： ```bash $ hive ``` 你将收到以下响应： ```plaintext Logging initialized using configuration in jar:file:/opt/hive-0.8.1/lib/hive-common-0.8.1.jar!/hive-log4j.properties Hive history file=/tmp/hadoop/hive_job_log_hadoop_201203031500_480385673.txt hive> ``` 8. 退出Hive交互式shell： ```bash $ hive> quit; ``` #### 3. Hive安装后的理解下载并解压最新稳定版的Hive后，我们设置了`HIVE_HOME`和路径变量。为了避免每次登录都设置这些变量，可以将它们添加到shell登录脚本或单独的配置脚本中。在HDFS上创建的`/tmp`和`/user/hive/warehouse`目录分别用于存储Hive在查询执行期间创建的临时数据和表数据。 #### 4. 使用Hive导入和分析UFO数据集导入新数据到Hive通常有三个阶段： 1. 创建要导入数据的表的规范。 2. 将数据导入到创建的表中。 3. 对表执行HiveQL查询。 #### 5. 创建UFO数据表以下是创建UFO数据表的步骤： 1. 启动Hive交互式shell： ```bash $ hive ``` 2. 创建UFO数据集的表，为了便于阅读，将语句拆分成多行： ```sql hive> CREATE TABLE ufodata(sighted STRING, reported STRING, sighting_location STRING, shape STRING, duration STRING, description STRING COMMENT 'Free text description') COMMENT 'The UFO data set.' ; ``` 完成后，你应该看到以下输出： ```plaintext OK Time taken: 0.238 seconds ``` 3. 列出所有现有表： ```sql hive> show tables; ``` 输出如下： ```plaintext OK ufodata Time taken: 0.156 seconds ``` 4. 显示匹配正则表达式的表： ```sql hive> show tables '.*data'; ``` 输出如下： ```plaintext OK ufodata Time taken: 0.065 seconds ``` 5. 验证表的规范： ```sql hive> describe ufodata; ``` 输出如下： ```plaintext OK sighted string reported string sighting_location string shape string duration string description string Free text description Time taken: 0.086 seconds ``` 6. 显示表的更详细描述： ```sql hive> describe extended ufodata; ``` 输出包含表的详细信息，部分内容如下： ```plaintext OK sighted string reported string … Detailed Table Information Table(tableName:ufodata, dbName:default, owner:hadoop, createTime:1330818664, lastAccessTime:0, retention:0, … …location:hdfs://head:9000/user/hive/warehouse/ ufodata, inputFormat:org.apache.hadoop.mapred. TextInputFormat, outputFormat:org.apache.hadoop.hive.ql.io. HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, ``` #### 6. 执行步骤的理解使用`CREATE TABLE`命令定义UFO数据表的结构，每个列都有名称和数据类型，HiveQL还支持对列和表添加注释。创建表后，使用`SHOW TABLES`语句验证表的创建，使用`DESCRIBE TABLE`和`DESCRIBE TABLE EXTENDED`命令分别验证表的规范和获取更详细的信息。需要注意的是，HiveQL和SQL一样，关键字、列和表名不区分大小写，但为了规范，SQL语句通常使用大写关键字。 #### 7. 插入UFO数据插入UFO数据的步骤如下： 1. 将UFO数据文件复制到HDFS： ```bash $ hadoop fs -put ufo.tsv /tmp/ufo.tsv ``` 2. 确认文件已复制： ```bash $ hadoop fs -ls /tmp ``` 输出如下： ```plaintext Found 2 items drwxrwxr-x - hadoop supergroup 0 … 14:52 /tmp/hive-hadoop -rw-r--r-- 3 hadoop supergroup 75342464 2012-03-03 16:01 /tmp/ufo.tsv ``` 3. 进入Hive交互式shell： ```bash $ hive ``` 4. 将先前复制的文件中的数据加载到`ufodata`表中： ```sql hive> LOAD DATA INPATH '/tmp/ufo.tsv' OVERWRITE INTO TABLE ufodata; ``` 输出如下： ```plaintext Load ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

Hive数据处理实战：从安装到数据分析

相关推荐

专栏目录

Hive数据处理实战：从安装到数据分析

相关推荐

Pig与Hive数据处理实战：表结构与分析

Hive数据分析实战：MM聊天软件2021年11月1日数据挖掘

Hive UDF处理海量数据：从安装到实战应用

Hive数据仓库实战：数据建模与设计精要

Hive查询优化实战：提升大数据处理效率

Hive实战：从安装到配置的全步骤指南

Hive实战笔记：从安装配置到新零售应用

掌握Hive实战技巧：从安装到优化的全方位学习资源

Hive日志系统实战：基于Hadoop的数据仓库与部署指南

Hive入门与实战：尚硅谷大数据技术解析

IOS如何创建SDK

mini-vue_一个轻量级Vuejs响应式框架实现_包含effect响应式依赖收集与触发_runner函数返回_scheduler调度器机制_stop停止依赖追踪_onStop.zip

专栏目录

最新推荐

性能瓶颈排查：T+13.0至17.0授权测试的性能分析技巧

海洋工程仿真：Ls-dyna应用挑战与解决方案全攻略

TB67S109A与PCB设计结合：电路板布局的优化技巧

Cadence AD库管理：构建与维护高效QFN芯片封装库的终极策略

【多目标优化】：水下机器人PID控制系统的策略与实施

嵌入式系统开发利器：Hantek6254BD应用全解析

【AutoJs脚本效率提升手册】：微信群加好友速度翻倍的优化策略（专家级技巧）

【MATLAB信号处理项目管理】：高效组织与实施分析工作的5个黄金法则

【LabView图像轮廓分析】：算法选择与实施策略的专业解析

【水管系统水头损失环境影响分析】：评估与缓解策略，打造绿色管道系统