- 博客(2)
- 收藏
- 关注
原创 Spark编程基础
RDD算子分为转换(Transformation)算子和行动( Action)算子,程序运行到转换算子时并不会马上执行转算子,只有碰到行动算子才会真正执行转换算子。
2024-05-12 20:27:59
1193
原创 大数据核心技术(程序员月入5000小技巧)
传统的关系数据库里存放的内容就是结构化数据,而图片、音频、视频、文档等以普通文件形式存放的数据,就是非结构化数据。高频操作 基于迭代计算框架,Spark 可高效地处理大规模任务,所获取的效益与数据读取量成正比。MapReduce的Task的执行单元是进程,Spark的Task执行单元是线程。运行速度迅速,容易上手开发,超强的通用性,集成Hadoop,极高的活跃度、Spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的。Spark是一种快速、通用、可扩展的大数据分析引擎。
2024-03-04 14:43:25
518
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人