深入解析SparkStructuredStreaming：输出模式与触发器

# Spark Streaming：输出模式与触发机制深度解析 ## 1. 内存表操作与输出模式概述在进行流处理时，我们可能会涉及对内存表的操作。例如，统计“rates”内存表中的行数： ```scala spark.sql("select count(*) from rates").show ``` 输出结果如下： ``` +---------+ | count(1)| +---------+ | 100| +---------+ ``` 若要停止“ratesSQ”查询流，可使用以下代码： ```scala ratesSQ.stop ``` 需要注意的是，即使流查询“ratesSQ”停止，内存中的“rates”数据仍然存在。但当启动一个同名的新流查询时，内存中的数据将被截断。在深入了解输出模式之前，我们需要先了解不同数据接收器支持的输出模式，如下表所示： | 数据接收器 | 支持的输出模式 | 备注 | | --- | --- | --- | | File | Append | 仅支持写入新行，不支持更新 | | Kafka | Append, Update, Complete | - | | Foreach | Append, Update, Complete | 取决于 `ForeachWriter` 的实现 | | Console | Append, Update, Complete | - | | Memory | Append, Complete | 不支持原地更新 | ## 2. 输出模式深度解析 ### 2.1 无状态流查询无状态流查询主要对传入的流数据进行基本转换，然后将数据写入数据接收器。典型的用例是实时流 ETL，例如持续读取在线服务产生的页面视图事件，以捕获哪些用户正在查看哪些页面。通常会执行以下操作： - **过滤、转换和清理**：现实世界的数据往往杂乱无章，结构可能不适合重复分析。 - **转换为更高效的存储格式**：如将文本文件格式（如 CSV 和 JSON）转换为更高效的二进制格式（如 ORC、Parquet 或 Avro），以减少文件大小并提高分析速度。 - **按特定列分区数据**：在将数据写入数据接收器时，可根据常用列的值对数据进行分区，以加快组织内各团队的重复分析。由于这些任务在将数据写入数据接收器之前不需要维护任何状态，因此无状态流查询唯一适用的输出模式是“Append”。“Complete”输出模式不适用，因为它要求 Structured Streaming 维护所有先前的数据，这可能会导致数据量过大而难以维护。“Update”输出模式也不适用，因为只写入新数据。不过，当将“Update”模式用于无状态流查询时，Structured Streaming 会将其视为“Append”模式。以下是使用不适当的“Complete”输出模式进行无状态流查询的示例： ```scala val ratesDF = spark.readStream.format("rate") .option("rowsPerSecond","10") .option("numPartitions","2") .load() // 简单转换 val ratesOddEvenDF = ratesDF.withColumn("even_odd", $"value" % 2 === 0) // 使用 complete 输出模式写入 Console 数据接收器 val ratesSQ = ratesOddEvenDF.writeStream.outputMode("complete") .format("console") .option("truncate",false) .option("numRows",50) .start() ``` 运行上述代码时，会抛出异常： ``` org.apache.spark.sql.AnalysisException: Complete output mode not supported when there are no streaming aggregations on streaming DataFrames/Datasets; ``` ### 2.2 有状态流查询有状态流查询在进行聚合操作（如通过 `groupBy` 转换）时，聚合状态由 Structured Streaming 引擎隐式维护。随着更多数据的到来，新数据的聚合结果会更新到结果表中。在每个触发点，根据输出模式，将更新后的数据或结果表中的所有数据写入数据接收器。对于有状态查询，使用“Append”输出模式是不合适的，因为它违反了该输出模式的语义，即只将追加到结果表的新行发送到指定的输出接收器。因此，只有“Complete”和“Update”输出模式适用于由 Structured Streaming 引擎隐式维护聚合状态的有状态查询类型。使用“Complete”输出模式的流查询输出总是等于或多于使用“Update”输出模式的相同流查询输出。以下是展示“Update”和“Complete”模式输出差异的示例代码： ```scala // 导入语句 import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ val mobileDataSchema = new StructType().add("id", StringType, false) .add("action", StringType, false) .add("ts", TimestampType, false) val mobileDF = spark.readStream.schema(mobileDataSchema) .json("<path>/chapter6/data/input") val actionCountDF = mobileDF.groupBy($"action").count val completeModeSQ = actionCountDF.writeStream.format("console") .option("truncate", "false") .outputMode("complete").start() val updateModeSQ = actionCountDF.writeStream.format("console") .option("truncate", "false") .outputMode("complete").start() ``` 运行上述代码后，将文件 `file1.json`、`file2.json`、`file3.json` 和 `newaction.json` 从 `mobile` 目录复制到 `input` 目录。“Complete”模式的流查询输出如下： ``` ------------------------------------------- Batch: 3 ------------------------------------------- +-------+------+ | action| count| +-------+------+ | close| 3| | swipe| 1| | crash| 1| | open| 5| +-------+------+ ``` “Update”模式的流查询输出如下： ``` ------------------------------------------- Batch: 3 ------------------------------------------- +-------+ ```

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

深入解析SparkStructuredStreaming：输出模式与触发器

相关推荐

专栏目录

深入解析SparkStructuredStreaming：输出模式与触发器

相关推荐

深入Apache Spark流计算引擎：Structured Streaming.pdf

Microsoft SQL Server：存储过程与触发器教程 - 数据库高级应用

《物联网理论与技术》第6章：触发器及含触发器的PLD(PPT).ppt

目录1.D触发器：2.D触发器功能表如下：3.功能表解析：4.同步D触发器解析：5.复位置数D触发器电路图：

计算机结构与逻辑设计：险象与触发器.ppt

数字电子技术：Lecture12 边沿触发器与触发器逻辑功能描述.pdf

深入理解：锁存器与触发器差异及Verilog编程注意事项

SQL Server习题：存储过程与触发器练习

SQL Server实验：存储过程与触发器应用

Unity3d碰撞教程：碰撞器与触发器详解

操作系统考点之死锁

最新扁平化蓝绿渐变线条互联网科技商务模板ppt模板.pptx

专栏目录

最新推荐

Brocade MIBs网络带宽管理：基于MIBs的监控与控制策略详解

BCM5396日志分析与故障诊断：掌握日志管理，快速定位问题

【飞行模拟器的自动化测试】：实现F-16模拟配平的自动化校准，效率倍增！

固件更新风险评估与减轻策略：系统停机的最小化

【GIS地图制图精要】：打造专业级别的内蒙古水系分布图

用户体验（UX）设计在软件交付中的作用：3个挑战与应对策略

【STM32CubeIDE代码补全完全教程】：成为STM32开发专家的终极学习路径

老冀文章编辑工具v1.8版本对比分析：升级前后的10大功能变化

【DB文件查看工具终极对比】：权威指南助你选出最佳解决方案

持续集成与部署(CI_CD)实施：S12(X)项目管理秘诀