【Hive】使用临时表保留全量数据

最新推荐文章于 2025-07-09 19:25:27 发布

原创

最新推荐文章于 2025-07-09 19:25:27 发布 · 1.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#hive使用临时表实现全量

本文探讨在Hive环境中如何利用临时表保留全量数据。针对a全量表和b增量表，提出两种方案：一是通过左外关联筛选a表独有数据并合并；二是合并a、b表后，利用row_number()分析函数去重保留最新数据。在数据量较小的情况下，比较两种方案的优劣。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

hive使用临时表保留全量数据

需求：
在hive环境下，a表为全量表，b表为增量表(只有当天跑的数据)，

假设需要将a表中有的但b表中没有的数据仍然保留在a表，

而且需要将b表中有的但a表中没有的数据追加到a表

方案一：
使用左外关联先将a表中有的数据但b表中没有的数据过滤出来，
然后再将b表的数据与过滤出来的数据合并
---------------------创建数据(在oracle演示)

--查询b表在a表的信息
with a as(
select 1 as id, 'Lisi' as name ,'2019-10-01' as time from dual
union all
select 2 as id, 'Wangmen' as name,'2019-10-01' as time from dual
union all
select 3 as id, 'Zhaoliu' as name,'2019-10-01' as time from dual
union all
select 4 as id, 'Pangsan' as name,'2019-10-01' as time from dual
),
b as(
select 1 as id, 'Lisi' as name,'2019-10-03' as time from dual
union all
select 2 as id, 'Wangmen' as name,'2019-10-03' as time from dual
union all
select 5 as id, 'Huangsan' as name,'2019-10-03' as time from dual
)

--使用连接
select a.id, a.name,a.time