
大数据
文章平均质量分 71
crackwl
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark mac intellij idea开发环境
1.先安装好java sdk,配置好java环境变量 2.安装spark scala 可以直接brew安装,也可下载安装 $ brew update $ brew info apache-spark $ brew install apache-spark $ brew install scala $ brew install sbt scala下载地址http://www.s原创 2017-07-16 20:28:19 · 2800 阅读 · 0 评论 -
spark环境运行程序遇到几个坑
1.mac下brew安装spark,运行spark-shell或start-all.sh提示spark-config start-master.sh等找不到 建议在spark.apache.org/download.html下载压缩文件,在本地解压后修改环境变量即可。 brew安装的spark,sbin目录在安装目录的libexec下面,运行脚本都是在安装目录/sbin下寻找,如此就会出现运行原创 2017-07-17 22:32:23 · 4896 阅读 · 1 评论 -
spark源码阅读二-spark job执行
本篇文章主要讲解driver进程spark context runJob函数执行后,最终如何提交在executor机器上分布式运行的。整个过程涉及2种进程,driver和executor。 1.job提交和stage划分 def runJob[T, U: ClassTag]( rdd: RDD[T], func: (TaskContext, Iterator[T]) =>原创 2017-08-03 09:13:12 · 428 阅读 · 0 评论 -
spark源码阅读二-spark application运行过程
本篇文章主要讲述一个application的运行过程。 大体分为三部分:(1)SparkConf创建;(2)SparkContext创建;(3)任务执行。原创 2017-08-02 17:54:00 · 1237 阅读 · 0 评论 -
spark源码阅读二-spark-submit执行过程
在spark-shell提交spark任务或者在某个clinet机器命令行运行spark-submit脚本提交任务,其实都执行的spark-submit脚本。 spark-submit脚本代码原创 2017-08-02 10:32:08 · 551 阅读 · 0 评论 -
spark源码阅读一-spark读写hbase代码分析
1.读取hbase代码 val hBaseRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat], classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable], classOf[org.apache.hadoop.hbase.client.Result])原创 2017-08-01 22:36:58 · 715 阅读 · 0 评论 -
spark源码阅读一-spark读写文件代码分析
1.读取文件 从本地文件读取sparkcontext.textFile(“abc.txt”) 从hdfs文件读取sparkcontext.textFile("hdfs://s1:8020/user/hdfs/input”)原创 2017-08-01 20:06:50 · 2294 阅读 · 1 评论 -
spark源码阅读一-spark-mongodb代码分析
源码的github地址https://github.com/mongodb/mongo-spark,是mongodb发布的spark connection接口库,可以方便的使用spark读写mongodb数据 1.rdd写入mongodb 两种方式将生成的rdd写入mongodb,事例代码:原创 2017-07-31 15:47:29 · 2841 阅读 · 0 评论