为什么把Spark RDD中的方法称之为算子？和Scala中的方法有什么不同？

枏

于 2021-04-24 11:38:56 发布

阅读量540

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark Scala 文章标签： spark scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43101402/article/details/116065748

Spark RDD中的算子与Scala方法的主要区别在于执行方式和位置。算子分布在网络节点上执行，导致结果可能因执行顺序不同而乱序，但同一节点内部保持有序。这种现象源于RDD的分布式特性和分区规则，每个分区内的数据按顺序处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

算子和方法

算子也就是Operator（操作）
不同的称呼是为了区分RDD的方法和Scala集合对象的方法

Scala集合对象的方法都是在同一个节点的内存中完成的
RDD的方法可以将计算逻辑发送到Executor端（分布式节点）执行

RDD的方法外部操作都是在Driver端执行，而方法内部的逻辑代码是在Executor端执行

执行的差异性

以foreach为例，属于不同类的foreach，其执行顺序不同：

val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄7年

36
原创

78
点赞

136
收藏

15
粉丝

关注

私信

热门文章

分类专栏

kafka 1篇
Scala 10篇
大数据 1篇
spark 6篇
树莓派 2篇
虚拟机 1篇
IDEA 2篇
楠楠的电子制作 1篇
Linux 8篇
Tensorflow
C 1篇
Android 1篇
Android Studio 2篇
gcc 2篇
天梯赛 3篇
JavaWeb 2篇
Java连接数据库 1篇

展开全部收起

上一篇：: spark中coalesce、repartition和partitionBy的异同

下一篇：: SparkRDD三种数据持久化/数据重用（persist cache checkpoint）

最新评论

用IDEA开发Servlet，html找不到servlet，Servlet注解无效
Holy Legend: 还是不行啊，action连项目名的路径都解析不了
Scala 循环逆序输出的几种形式
SERE834: 我0 to 10 用 reverse可以，但10 to 0 不行。。。为啥啊，大佬们
spark 运行自带样例SparkPi、spark-examples报错
who is: 博主，您好，出现Exception in thread "main" java.net.ConnectException: Call From master/192.168.3.190 to master:9000 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefused 怎么解决（防火墙已经关闭的前提下）
用IDEA开发Servlet，html找不到servlet，Servlet注解无效
聖光龙毅: 我的也不行，大佬能帮我看看吗
spark 运行自带样例SparkPi、spark-examples报错
weixin_66315901: 你好，执行之后出现22/06/10 11:44:22 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties 22/06/10 11:44:22 WARN DependencyUtils: Local jar /opt/module/spark-standalone/10 does not exist, skipping. Error: Failed to load class org.apache.spark.examples.SparkPi. 22/06/10 11:44:22 INFO ShutdownHookManager: Shutdown hook called 22/06/10 11:44:22 INFO ShutdownHookManager: Deleting directory /tmp/spark-4ea00bfd-bf9e-47f6-a320-46a17bc2e0bb 怎么解决

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。