hive语法和常用函数.pdf
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
Hive 语法和常用函数 Hive 是一个基于 Hadoop 分布式系统上的数据仓库,最初由 Facebook 公司开发的,极大地推进了 Hadoop 生态系统在数据仓库方面的发展。 Hive 提供了一种 SQL-like 的语言,称为 Hive QL,用于查询和分析大规模数据集。 Hive 的架构和执行流程: 1. 用户提交的 Hive QL 语句最终被编译为 MapReduce 程序作为 Job 提交给 Hadoop 执行。 2. Hive 的数据类型包括基本数据类型和集合类型。 3. Hive 主要有四种数据模型:部表、外部表、分区表和桶表。 Hive 的数据类型: 1. 基本数据类型:TINYINT、SMALLINT、INT、BIGINT、BOOLEAN、FLOAT、DOUBLE、STRING、TIMESTAMP 和 BINARY。 2. 集合类型:STRUCT、MAP 和 ARRAY。 Hive 的数据模型: 1. 部表:Hive 中的表和传统数据库中的表在概念上是类似的,每个表都有自己的存储目录。 2. 外部表:外部表指向已经存在在 Hadoop HDFS 上的数据。 3. 分区表:分区表的每一个分区都对应数据库中相应分区列的一个索引,但其组织方式和传统的关系型数据库不同。 4. 桶表:桶表是一种特殊的分区表,每个桶对应一个文件夹。 Hive 的优点: 1. 高延展性:Hive 可以自适应机器和数据量的动态变化。 2. 高容错性:Hive 具有良好的容错性。 3. 低约束的数据输入格式:Hive 支持多种数据输入格式。 Hive 的限制: 1. 高延迟:Hive 的性能和传统数据库的数据仓库的性能不能比较。 2. 不提供数据排序和查询的 cache 功能。 3. 不提供索引功能。 4. 不提供在线事务。 5. 不提供实时的查询功能。 Hive 的应用场景: 1. 大规模数据集的批量分析处理。 2. 数据仓库的数据 ETL(抽取、转换、加载)工具。 3. 大数据集的查询和分析能力。 Hive 是一个强大的数据仓库工具,提供了丰富的数据处理和分析能力,但也存在一些限制,需要根据实际情况选择合适的使用场景。





















剩余49页未读,继续阅读


- 粉丝: 2
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 利用MATHLAB研究火箭升空问题-软件.docx
- 某网站建设招标书.doc
- 卷积神经网络的对抗性攻击与防御实验研究
- DNS解析的探究.docx
- 某某国家森林公园旅游区建设项目管理.doc
- 2009年9月全国计算机等级考试四级网络工程师试题.doc
- C--面向对象程序设计-(陈维新-林小茶-著).doc
- 单片机火灾自动报警系统方案设计书.doc
- (源码)基于C++和Qt框架的Nitrokey应用程序.zip
- 单片机控制八音盒的方案设计大学课程方案设计.doc
- C语言课程方案设计书-学生综合测评系统.doc
- 信息化工作管理标准.doc
- 基于Hadoop的市政设施监控大数据分析.docx
- 单片机全自动洗衣机控制系统软硬件设计方案.doc
- 基于大数据理论的企业档案管理提升策略.docx
- 110千伏及以上电力项目管理投资建设资金管理.doc


