七，Hive篇，分区表和分区表详细篇

凡梦_leo

已于 2024-07-29 20:43:18 修改

阅读量2k

点赞数 40

CC 4.0 BY-SA版权

分类专栏：大数据文章标签： hive hadoop 数据仓库数据库大数据 python sql

于 2024-07-29 20:39:23 首次发布

学习：知识的初次邂逅

复习：知识的温故知新

一，分区表

分区表在Hive中具有多个显著的优势，这些优势主要体现在查询性能提升、数据管理便捷性、以及数据生命周期管理的支持等方面。以下是分区表优势的详细阐述：

减少数据扫描量：分区表通过将数据按照某个或多个列的值划分为不同的分区，每个分区存储为独立的目录。在查询时，Hive可以仅扫描与查询条件相匹配的分区，而无需扫描整个表，从而大大减少了数据扫描量。
提高查询效率：由于分区表减少了数据扫描量，因此查询所需的时间也相应减少，提高了查询效率。这对于处理大规模数据集尤为重要。

更好的数据组织：分区表允许用户根据业务需求将数据划分为更小的数据集，每个分区都对应着HDFS上的一个独立目录。这种组织方式使得数据更加有序，便于管理和维护。
灵活的分区策略：用户可以根据需要选择分区列和分区策略，如按时间、地区、业务类型等进行分区。这种灵活性使得分区表能够适用于多种不同的业务场景。
支持动态分区：Hive还支持动态分区功能，即在插入数据时自动根据分区字段的值将数据分配到相应的分区中。这进一步简化了数据管理的复杂性。

数据备份与归档：通过分区表，用户可以更方便地根据数据的生命周期进行备份和归档操作。例如，可以定期将旧数据分区迁移到冷存储中，以节省存储空间并提高查询效率。
数据删除与清理：当数据不再需要时，用户可以通过删除整个分区来快速清理数据，而无需逐条删除记录。这大大提高了数据清理的效率。

支持复杂查询：分区表还支持复杂的查询操作，如聚合、排序和过滤等。由于分区表减少了数据扫描量，这些操作的执行速度也会相应提高。
与Hadoop生态系统集成：Hive作为Hadoop生态系统的一部分，分区表可以与其他Hadoop组件（如HDFS、YARN、MapReduce等）无缝集成，实现数据的高效处理和分析。

分区表在Hive中具有查询性能提升、数据管理便捷性、以及数据生命周期管理的支持等多方面的优势。这也是我们使用分区表的原因所在;

准备数据

-- 0 准备数据
-- vim /root/orders_data.csv
-- 1001,2024-07-01,2001,产品A,5,100
-- 1002,2024-07-01,2002,

200万优质内容无限畅学