SparkSql中多个Stage的并发执行

最新推荐文章于 2025-06-23 11:42:20 发布

原创

最新推荐文章于 2025-06-23 11:42:20 发布 · 1k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #大数据 #hadoop #spark #数据仓库

本文探讨了Hive中SQL作业的并发执行，以及SparkSQL如何并行执行多个Stage。当Hive的`hive.exec.parallel=true`，无依赖的Job可以并发。在Spark中，无相互依赖的Stage能够并行运行，而有依赖的必须等待前一个完成。Stage的并发度受资源限制。源码分析表明，Spark递归提交Stage，从根节点开始，多个根节点并行提交。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

写一篇水水的技术文，总结一下sparksql中不同stage的并行执行相关，也是来自于一位群友的提问：

我们群里有很多技术很棒并且很热心的大佬，哈哈~

Hive中Job并发执行

hive中，同一sql里，如果涉及到多个job，默认情况下，每个job是顺序执行的。

但如果某些job没有前后依赖关系的话，是阔以并行执行的，这样可能使得整个job的执行时间缩短。

可以通过设置参数 set hive.exec.parallel=true，实现job并发执行，该参数默认可以并发执行的job数为8，相关参数如下：

set hive.exec.parallel=true;              //打开任务并行执行
set hive.exec.parallel.thread.number=16;  //同一个sql允许最大并行度，默认为8。

Spark中多个Stage的并发执行

先给结论：

没有相互依赖关系的Stage是可以并行执行的，比如union all 两侧的sql
存在依赖的Stage必须在依赖的Stage执行完成后才能执行下一个Stage
Stage的并行度取决于资源数（配制的参数以及队列资源的核数、内存等），相关参数如下：

set spark.dynamicAllocation.

最低0.47元/天解锁文章

新学期VIP享超值加赠