- 博客(4)
- 收藏
- 关注
原创 Structured Streaming基础入门
Structured Streaming 1. 回顾和展望 1.1. Spark 编程模型的进化过程 RDD rdd.flatMap(_.split(" ")) .map((_, 1)) .reduceByKey(_ + _) .collect 针对自定义数据对象进行处理, 可以处理任意类型的对象, 比较符合面向对象 RDD 无法感知到数据的结构, 无法针对数据结构进行编程 ...
2020-03-13 18:59:06
914
原创 DataFrameReader、DataFrameWrite、Spark整合Hive、JDBC
数据读写 初识 DataFrameReader SparkSQL 的一个非常重要的目标就是完善数据读取, 所以 SparkSQL 中增加了一个新的框架, 专门用于读取外部数据源, 叫做 DataFrameReader def reader1(): Unit = { // 1. 创建 SparkSession val spark = SparkSession.builder() ...
2020-03-12 22:05:27
1286
原创 Dataset基本操作、Column对象、缺失值处理
DataSet(DataFrame)的基本操作 有类型操作 转换 flatMap 通过 flatMap 可以将一条数据转为一个数组, 后再展开这个数组放入 Dataset import spark.implicits._ val ds = Seq("hello world", "hello spark").toDS() ds.flatMap( _.split(" ") ).show() map ...
2020-03-12 17:09:05
2799
原创 Spark聚合、连接、窗口函数
聚合 groupBy groupBy 算子会按照列将 Dataset 分组, 并返回一个 RelationalGroupedDataset 对象, 通过 RelationalGroupedDataset 可以对分组进行聚合 // 1 准备数据 val spark = SparkSession.builder() .master("local[6]") .appName("aggre...
2020-03-12 13:47:40
699
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人