Spark SQL和Hive在处理日期/时间上的差异

最新推荐文章于 2025-06-29 19:52:48 发布

原创最新推荐文章于 2025-06-29 19:52:48 发布 · 6.4k 阅读

5 ·

CC 4.0 BY-SA版权

本文为博主原创文章，未经博主允许不得转载。

文章标签：

#spark-sql #hive #date #timestamp #cast

大数据专题专栏收录该内容

184 篇文章

订阅专栏

在使用Hive和Spark-SQL进行日期与时间戳类型比较时，存在意料之外的结果。本文揭示了在不同环境下，date类型与timestamp类型直接比较可能导致的错误，并提供了解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

博主历时三年倾注大量心血创作的《大数据平台架构与原型实现：数据中台建设实战》一书已由知名IT图书品牌电子工业出版社博文视点出版发行，真诚推荐给每一位读者！点击《重磅推荐：建大数据平台太难了！给我发个工程原型吧！》了解图书详情，扫码进入京东手机购书页面！

在这里插入图片描述

注：本文使用的环境是：Spark：2.2, Hive: 1.2.1

最近在编写一个SQL的过程中遇到了这样一个陷阱：为了便于工作，SQL的编写是通过一个SQL的IDE环境以Hive JDBC驱动的方式连接到HIVE上去执行的，SQL在HIVE上执行正常，有结果数据返回。但是SQL开发好在程序执行时通过Spark-SQL来运行的，SQL可以成功执行，没有报出任何语法错误，但是没有任何结果数据！在经过仔细查询后，发现问题出现在where条件中对理日期/时间字段的比较上。以下where字句：

where creation_date >= start_time and creation_date < end_time ....

其中creation_date是date类型，start_time和end_time是timestamp类型。虽然是两种时间类型，但是确实是可以直接比较大小的，人们会默认的转换规则是：对于date类型，如果要与timestamp类型进行比较，会默认在时间部分上补齐"00:00:00.00000000", 但是如果在不显式地指定这种转换下，默认的两个类型间的比较结果如下：

使用原始字面量进比较

SQL	HIVE执行结果	SPARK-SQL执行结果
select ‘2019-01-01’ < ‘2019-01-01 00:00:00’;	true	true
select ‘2019-01-01’ = ‘2019-01-01 00:00:00’;	false	false
select ‘2019-01-01’ < ‘2019-01-01 00:00:00’;	false	false

date类型的’2019-01-01’一定是比timestamp类型的’2019-01-01 00:00:00’要小。虽然这有些怪异，但在hive和spark-sql上这一比较是一致的

强制类型转换后进行比较

SQL	HIVE执行结果	SPARK-SQL执行结果
select cast(‘2019-01-01’ as date) < cast(‘2019-01-01 00:00:00’ as timestamp);	false	true
select cast(‘2019-01-01’ as date) = cast(‘2019-01-01 00:00:00’ as timestamp);	true	false
select cast(‘2019-01-01’ as date) > cast(‘2019-01-01 00:00:00’ as timestamp);	false	false

这比较让人更加费解，本质上对于’2019-01-01’和’2019-01-01 00:00:00’两个字面量的类型转换都是它们本来的类型，对于Spark-SQL来说，它保持了和前一个版本以纯字面量比较一致的结果，但Hive的比较结果发生了变化，变成了“默认的那种”结果，这是有问题的。如果我们再一步的比较’2019-01-01’和cast(‘2019-01-01’ as date)，那么对于Hive的行为就更加难以理解了：

select '2019-01-01' = cast('2019-01-01' as date);  ->  hive: true, spark-sql: true

总之，Hive在处理date类型与timestamp类型的比较上是有问题的! 结果不符合人们的预期，所以最好的作法是将date类型转化为timestamp之后再进行比较！ 像下面这样：

SQL	HIVE执行结果	SPARK-SQL执行结果
select cast(‘2019-01-01’ as timestamp) < cast(‘2019-01-01 00:00:00’ as timestamp);	false	false
select cast(‘2019-01-01’ as timestamp) = cast(‘2019-01-01 00:00:00’ as timestamp);	true	true
select cast(‘2019-01-01’ as timestamp) > cast(‘2019-01-01 00:00:00’ as timestamp);	false	false