Spark调优多线thread并行处理任务实现方式 1. 明确Spark中Job与Streaming中Job的区别 Spark Core中一个RDD DAG Graph可以生成一个或多个Job(Action操作),一个Job可以认为是一个会最终输出一个结果RDD的一条由RDD组织而成的计算Job,在Spark应用中是一个被调度的单位。 Streaming中一个batch的数据对应一个DStreamGraph,而一个DStreamGraph包含一个或多个关于DStream的输出操作,每一个输出对应于一个Job,一个DStreamGraph对应一个JobSet,里面包含一个或多个Job。 2. Streaming Job的并行度 Streaming Job的并行度由两个配置决定:spark.scheduler.mode(FIFO/FAIR)和spark.streaming.concurrentJobs。 一个Batch可能会有多个Action执行,比如注册了多个Kafka数据流,每个Action都会产生一个Job,所以一个Batch可能是一批Job,也就是JobSet的概念。 这些Job由jobExecutor依次提交执行,而JobExecutor是一个默认池子大小为1的线程池,所以只能执行完一个Job再执行另外一个Job。 spark.streaming.concurrentJobs决定了向Spark Core提交Job的并行度,提交一个Job,必须等这个执行完了,才会提交第二个。 假设我们把它设置为2,则会并发的把Job提交给Spark Core,Spark有自己的机制决定如何运行这两个Job,这个机制其实就是FIFO或者FAIR(决定了资源的分配规则)。 3. Spark Streaming不同Batch任务可以并行计算吗? Spark Streaming可以在不同Batch任务并行计算的,需要满足以下条件:有延时发生了,batch无法在本batch完成,concurrentJobs > 1,如果scheduler mode是FIFO则需要某个Job无法一直消耗掉所有资源,Mode是FAIR则尽力保证你的Job是并行运行的。 4. Spark调优多线程并行处理任务实现方式 方式1:通过设置spark.streaming.concurrentJobs和spark.scheduler.mode来实现多线程并行处理任务。 方式2:使用线程池来实现多线程并行处理任务,例如使用Executor框架来创建线程池,并将任务提交到线程池中执行。 5. Spark Streaming的调优方法 通过设置spark.streaming.concurrentJobs和spark.scheduler.mode来实现多线程并行处理任务。 使用线程池来实现多线程并行处理任务。 通过设置batch间隔和Job的并行度来提高Spark Streaming的处理速度。 使用FAIR scheduler来保证Job的并行运行。 6. Spark Streaming的应用场景 场景1:程序每次处理的数据量是波动的,例如周末比工作日多很多,晚八点比凌晨四点多很多。 场景2:程序需要处理的相似job数随着业务的增长越来越多。 Spark Streaming可以用于实时处理大规模数据,例如实时监控、实时推荐等。 7.Spark Streaming的优点 可以实时处理大规模数据,具有较高的处理速度。 可以实现多线程并行处理任务,提高处理速度。 可以设置batch间隔和Job的并行度,提高处理速度。 8. Spark Streaming的缺点 需要较高的计算资源,例如CPU和内存。 需要合理设置batch间隔和Job的并行度,否则可能会出现性能问题。 不适合处理小规模数据,例如处理一些简单的数据报表。





























- 粉丝: 3
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 大数据视角下网络新媒体内容价值链构建策略研究.docx
- 大数据时代背景下档案管理工作探析.docx
- 基于无线传感器控制网络的空气环境监测系统设计与实现.docx
- 中职计算机平面设计课堂教学模式的创新.docx
- 企业如何进行量化项目管理.docx
- 全国教育信息化工作现场研讨会聚焦湖南经验I共9则l.docx
- 抛物线型体零件艺分析研究与编程.doc
- 审计监督在城市建设项目管理中的应用分析.docx
- Flet框架实现的带彩色图标轮廓按钮示例猜拳游戏自定义模板
- 移动时代图书馆阅读推广基于互联网+的探索.docx
- 单片机原理及应用实验指导说明书(红色板).doc
- 启程自动化培训机构每日一题之案例解析一.doc
- 通信行业职业定位及发展课程考试.ppt
- 公司人事表格(Excel表格通用模板).xls
- 项目管理感触最难做的就是项目经理.doc
- Android推箱子游戏程序方案设计书.doc


