
大数据
tiantao2012
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark的安装和使用
1.首先检查是否安装了java和scala 可以通过java -version检查java是否成功安装 可见通过检测scala 检查scala是否成功安装 下载spark wget http://mirror.bit.edu.cn/apache/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz 解压tar -zxvf s原创 2018-03-08 15:53:12 · 1585 阅读 · 0 评论 -
spark job提交6
driver端调用launchTasks来向worker节点中的executor发送启动任务命令 spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala private def launchTasks(tasks: Seq[Seq[Tas...原创 2018-08-22 10:52:14 · 442 阅读 · 0 评论 -
spark job提交4
taskscheduler的submitTasks是通过TaskSchedulerImpl的submitTasks实现,stage由tasks组成,task被封装成taskset , override def submitTasks(taskSet: TaskSet) { val tasks = taskSet.tasks logInfo("Adding task set " ...原创 2018-08-13 14:43:26 · 352 阅读 · 0 评论 -
spark job提交
当用户生成sparkcontext是,在读入文件, 可以看出这里直接调用rdd的saveAsTextFile spark-master\spark-master\core\src\main\scala\org\apache\spark\api\java\JavaRDDLike.scala def saveAsTextFile(path: String): Unit = { #触发rdd的a...原创 2018-08-08 09:23:28 · 876 阅读 · 0 评论 -
spark应用程序的提交
spark 应用提交流程 \spark-master\spark-master\core\src\main\scala\org\apache\spark\deploy\SparkSubmit.scala override def main(args: Array[String]): Unit = { #新建一个SparkSubmit 最后调用其doSubmit val submit = ...原创 2018-08-07 20:07:31 · 665 阅读 · 0 评论 -
spark job提交5
最终调用makeOffers来让所有的task执行在work中的executors spark-master\spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala private def makeOffers() { // ...原创 2018-08-14 11:48:06 · 637 阅读 · 0 评论 -
sparkcontext中环境变量的读取和保存
sparkcontext的构造函数如下:可见sparkcontext使用sparkconf来读取设置的参数 class SparkContext(config: SparkConf) extends Logging { // The call site where this SparkContext was constructed. private val creationSite: ...原创 2018-08-06 15:16:16 · 2897 阅读 · 0 评论 -
spark job提交3
在上一篇博文中有说到最后调用handlejobsubmitted中的submitStage来提交finalstage spark-master\spark-master\core\src\main\scala\org\apache\spark\scheduler\DAGScheduler.scala private def submitStage(stage: Stage) { va...原创 2018-08-10 08:59:05 · 469 阅读 · 0 评论 -
spark job提交2
private[scheduler] def handleJobSubmitted(jobId: Int, finalRDD: RDD[_], func: (TaskContext, Iterator[_]) => _, partitions: Array[Int], callSite: CallSite, listener: J...原创 2018-08-09 08:54:05 · 408 阅读 · 0 评论 -
spark-shell到sparkcontext的过程
在bin/spark-shell 中会调用spark-submit function main() { if $cygwin; then # Workaround for issue involving JLine and Cygwin # (see http://sourceforge.net/p/jline/bugs/40/). # If you're usin...原创 2018-08-03 16:42:45 · 718 阅读 · 0 评论 -
spark的RDD
spark的RDD 分为两种操作,分别是actions和transformations 首先生成一个RDD 执行action 执行transformations原创 2018-03-08 17:23:51 · 414 阅读 · 0 评论 -
HIbench
HIbench 是一个大数据的benchmark测试的套件,用来测试框架的速度,吞吐率,资源利用率等。 其网站是https://github.com/intel-hadoop/HiBench 其支持的框架如下: 我这边以spark测试为例 下载Hibench https://github.com/intel-hadoop/HiBench Hibench 遇到下面问题原创 2018-03-08 16:14:37 · 3632 阅读 · 0 评论 -
hsdf的使用
下载hadoopwget -c http://apache.fayea.com/hadoop/common/stable/hadoop-2.9.0.tar.gz解压tar -zxvf hadoop-2.9.0.tar.gz运行hadoop version配置hdfs启动hsfs只要下面一个命令就可以了启动hdfs的命令如下: ./sbin/start-dfs.sh启动成后就可以通过hdfs dfs...原创 2018-03-08 16:01:42 · 1498 阅读 · 0 评论 -
spark job提交7
当task在executor上运行时最终会在taskrunner中调用execBackend.statusUpdate来向driver端发送状态更新 \spark-master\core\src\main\scala\org\apache\spark\executor\CoarseGrainedExecutorBackend.scala 直接调用driverRef.Send函数来发送消息 o...原创 2018-08-29 19:24:56 · 496 阅读 · 0 评论