
spark
Losteng
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD详解
1、RDD是什么? 2、为什么产生RDD? 3、RDD在spark是什么地位? 4、RDD在spark说是什么作用? 5、如何操作RDD? 一、Spark RDD详解 1、RDD是什么? RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集, 这个数据集的全转载 2016-11-27 20:19:29 · 1351 阅读 · 0 评论 -
Spark性能优化指南一——基础篇
1.Spark调优有哪些原则? 2.Spark作业原理是什么? 3.怎样进行参数调优? 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark转载 2016-11-27 20:13:56 · 2568 阅读 · 0 评论 -
Spark性能优化指南二——高级篇
1.如何判断发生数据倾斜? 2.为什么会发生数据倾斜? 3.如何定位导致数据倾斜的代码? 4.Spark Web UI哪些参数可以反映数据倾斜? 5.本文对于数据倾斜提出哪些解决方案? 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能转载 2016-11-27 20:34:08 · 1100 阅读 · 0 评论