【spark】十 DataFrame min、max、sum必须要用到is not anaggregate function错误，怎么处理

最新推荐文章于 2025-03-15 20:48:18 发布

原创最新推荐文章于 2025-03-15 20:48:18 发布 · 6.3k 阅读

2 ·

CC 4.0 BY-SA版权

spark 专栏收录该内容

27 篇文章

订阅专栏

在处理Spark DataFrame时遇到'is not an aggregate function'错误，文章介绍了四种解决方案：1) 使用Window函数，可能导致OOM；2) 利用describe()函数，速度适中；3) 转换为RDD使用min()，速度较慢；4) 直接通过select(min("colName"))获取。同时提醒注意字符串比较的特殊性，避免潜在问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DataFrame.select(min(substring(col("A"),2,8)),max(substring(col("A"),2,8)),sum(col("B"))) 
df.withColumn("acc_ip_cnt_percent",col("acc_ip_cnt")/max("acc_ip_cnt"))#相求登录次数累加后百分比例
#拆解为
df.withColumn("max_test",max("acc_ip_cnt")) #也会报同样的错误

>>>
AnalysisException: u"grouping expressions sequence is empty, and '`xxxx`' is not an aggregate function. Wrap '(max(`xxxx`) AS `xxx`) ……

报错提示需要aggregate by信息
①是我用错了,不能使用col("A")来取A列的值再substring，
②withColumn的方法中，max/min/等操作必须要有grouping的信息
解决方案：应该直接用select方法去求得列最大值，例如substring("A",2,8) 取a列的第二个字符起的八位字符，取最大值、最小值做时间字符窜，这样才不会提示需要aggregate by的错误

方法一：如果使用Window窗口相关信息，不报错，但是数据太大（亿级），直接OOM。而且明显加大处理时间不可取

df.select(min("A").over(Window.rowsBetweens(Window.unboundedPreceding,Window.unboundedFollowing))).collect()[0][0]

方法二：使用describe()中的信息，速度还可以

df.describe("A").filter("summary = 'min'").select("A").collect()[0][0]

方法三：转为rdd.min()，速度比describe()慢

df.select(["A"]).rdd.min().collect()[0][0]

方法四：直接select(min(“colName”))

df.select(min("A"))
df.select(min(substring("A",2,8)))

【spark】十 DataFrame min、max、sum必须要用到is not anaggregate function错误，怎么处理

方法一：如果使用Window窗口相关信息，不报错，但是数据太大（亿级），直接OOM。而且明显加大处理时间不可取

方法二：使用describe()中的信息，速度还可以

方法三：转为rdd.min()，速度比describe()慢

方法四：直接select(min(“colName”))

注意 spark中 字符窜大小比较时的差异性，比如A12 与A123 与A1111111大小，不注意可能会翻车

注意 spark中字符窜大小比较时的差异性，比如A12 与A123 与A1111111大小，不注意可能会翻车