
spark学习
平凡de世界
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark原理,架构与运行流程
spark原创 2020-04-20 15:28:09 · 242 阅读 · 0 评论 -
spark RDD的5个重要内部属性
RDDs 接口的五个属性 下表总结了 RDDs 的五个属性:上述属性可以概括为几个方面:一组分区,表示数据集包含的分片;一组依赖关系,指向其父 RDD;一个函数,基于父 RDD 进行计算;以及划分策略和数据位置相关的元数据。例如上文中的代码实例里,HDFS 文件作为输入,初始 RDD 的 partitions 代表文件中每个文件块的分区(包含文件块在每个分区对象中的偏移量),preferredLo原创 2016-06-13 09:24:24 · 2409 阅读 · 0 评论 -
RDD Stage生成
Stage生成 Stage的调度是由DAGScheduler完成的。由RDD的有向无环图DAG切分出了Stage的有向无环图DAG。Stage的DAG通过最后执行的Stage为根进行广度优先遍历,遍历到最开始执行的Stage执行,如果提交的Stage仍有未完成的父母Stage,则Stage需要等待其父Stage执行完才能执行。同时DAGScheduler中还维持了几个重要的Key-Value集合结原创 2016-06-13 10:06:50 · 952 阅读 · 0 评论