spark submit 提交脚本的参数详解

本文详细介绍了如何使用`spark submit`命令提交Spark任务,重点解析了常见参数的用法,包括如何配置内存、并行度等关键设置。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在将项目打包之后,可能需要将其提交到大数据平台上去跑,这个时候就涉及到脚本处理。这里主要是有关spark的运行任务…一些常用的提交参数配置如下所示:

参数名参数说明
- -mastermaster 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local
- -deploy-mode在本地 (client) 启动 driver 或在 cluster 上启动,默认是 client
- -name应用程序的名称
- -class应用程序的主类,仅针对 java 或 scala 应用
- -jars用逗号分隔的本地 jar 包,设置后,这些 jar 将包含在 driver 和 executor 的 classpath 下
- -packages包含在driver 和executor 的 classpath 中的 jar 的 maven 坐标
- -exclude-packages为了避免冲突 而指定不包含的 package
- -repositories远程 repository
- -conf指定 spark 配置属性的值
- -properties-file加载的配置文件,默认为 conf/spark-defaults.conf
- -driver-memoryDriver内存,默认 1G
- -driver-java-options传给 driver 的额外的 Java 选项
- -driver-library-path传给 driver 的额外的库路径
- -driver-class-path传给 driver 的额外的类路径
- -driver-coresDriver 的核数,默认是1。在 yarn 或者 standalone 下使用
- -executor-memory每个 executor 的内存,默认是1G
–total-executor-cores所有 executor 总共的核数。仅仅在 mesos 或者 standalone 下使用
–num-executors启动的 executor 数量。默认为2。在 yarn 下使用
–executor-core每个 executor 的核数。在yarn或者standalone下使用

提交的脚本示例:

spark2-submit 
--conf spark.yarn.submit.waitAppCompletion=false 
--queue xxxx.xxx 
--proxy-user xxx 
--master yarn-cluster 
--class xxxx.xxx.xxxTask (对应包下的类的路径)
--name xxxTask 
--conf kafka.version=0.10  
--executor-cores 2  
--executor-memory 2048M 
--driver-memory 512M 
--num-executors 1 
hdfs://xxxx(提交jar包中所显示的完整路径,jar包将对应保存在hdfs的相应目录里面)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值