【spark】十 DataFrame min、max、sum必须要用到is not anaggregate function错误,怎么处理

在处理Spark DataFrame时遇到'is not an aggregate function'错误,文章介绍了四种解决方案:1) 使用Window函数,可能导致OOM;2) 利用describe()函数,速度适中;3) 转换为RDD使用min(),速度较慢;4) 直接通过select(min("colName"))获取。同时提醒注意字符串比较的特殊性,避免潜在问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

DataFrame.select(min(substring(col("A"),2,8)),max(substring(col("A"),2,8)),sum(col("B"))) 
df.withColumn("acc_ip_cnt_percent",col("acc_ip_cnt")/max("acc_ip_cnt"))#相求登录次数累加后百分比例
#拆解为
df.withColumn("max_test",max("acc_ip_cnt")) #也会报同样的错误

>>>
AnalysisException: u"grouping expressions sequence is empty, and '`xxxx`' is not an aggregate function. Wrap '(max(`xxxx`) AS `xxx`) ……

报错提示需要aggregate by信息
①是我用错了,不能使用col("A")来取A列的值再substring,
②withColumn的方法中,max/min/等操作必须要有grouping的信息
解决方案:应该直接用select方法去求得列最大值,例如substring("A",2,8) 取a列的第二个字符起的八位字符,取最大值、最小值做时间字符窜,这样才不会提示需要aggregate by的错误
方法一:如果使用Window窗口相关信息,不报错,但是数据太大(亿级),直接OOM。而且明显加大处理时间不可取
df.select(min("A").over(Window.rowsBetweens(Window.unboundedPreceding,Window.unboundedFollowing))).collect()[0][0]
方法二:使用describe()中的信息,速度还可以
df.describe("A").filter("summary = 'min'").select("A").collect()[0][0]
方法三:转为rdd.min(),速度比describe()慢
df.select(["A"]).rdd.min().collect()[0][0]
方法四:直接select(min(“colName”))
df.select(min("A"))
df.select(min(substring("A",2,8)))
注意 spark中 字符窜大小比较时的差异性,比如A12 与A123 与A1111111大小,不注意可能会翻车
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值