Spark 综合题题库
Spark 是一个通用引擎,具有高级 API、快速计算速度、通用引擎三大特点。它可以用来完成各种运算,包括 SQL 查询、文本处理、机器学习、实时流处理等。
Spark 的特点
1. 高级 API:Spark 提供了高级 API,应用开发者只需要专注于应用计算本身,而不需要关心集群本身。
2. 快速计算速度:Spark 计算速度快,支持交互式计算和复杂算法。
3. 通用引擎:Spark 是一个通用引擎,可以用来完成各种运算,包括 SQL 查询、文本处理、机器学习、实时流处理等。
Spark 与 Hadoop 的区别与联系
1. 解决问题的方式不同:Hadoop 和 Spark 都是大数据框架,但是它们解决问题的方式不同。
2. Hadoop 是分布式数据基础设施:Hadoop 将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储。
3. Spark 是专门用来对分布式存储的大数据进行处理的工具:Spark 不进行分布式数据的存储,而是专门用来对分布式存储的大数据进行处理。
Spark 在各个领域中的用途
1. 快速查询系统:基于日志数据的快速查询系统业务构建于 Spark 之上,利用其快速查询和内存表等优势,能够承担大多数日志数据的即时查询工作。
2. 实时日志采集处理:通过 Spark 的流处理模块对业务日志进行实时快速迭代处理,并进行综合分析。
3. 业务推荐系统:Spark 将业务推荐系统的小时和天级别的模型训练,转变为分钟级别的模型训练。
4. 定制广告系统:借助 Spark 快速迭代的优势,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法。
5. 用户图计算:利用 Spark 图计算解决了许多生产问题,包括基于分布的中枢节点发现、基于最大连通图的社区发现、基于三角形计数的关系衡量等。
Spark2.X 新特性
1. 统一的 DataFrame 和 Dataset 接口:统一了 Scala 和 Java 的 DataFrame、Dataset 接口,在 R 和 Python 中由于缺乏安全类型,DataFrame 为主要的程序接口。
2. 新增 SparkSession 入口:SparkSession 替代原来的 SQLContext 和 HiveContext 作为 DataFrame 和 Dataset 的入口函数。
3. 为 SparkSession 提供全新的、工作流式配置。
4. 更易用、更高效的计算接口。
5. Dataset 中的聚合操作有全新的、改进的聚合接口。
PySpark 是什么
PySpark 是 Spark 为 Python 开发者提供的 API,为了不破坏 Spark 已有的运行时架构,Spark 在外围包装一层 Python API,借助 Py4j 实现 Python 和 Java 的交互,进而实现通过 Python 编写 Spark 应用程序。
RDD 是什么
RDD(Resilient Distributed Datasets)是一种可扩展的弹性分布式数据集,是 Spark 最基本的数据抽象,表示一个只读、分区且不变的数据集合,是一种分布式的内存抽象,不具备 Schema 的数据结构,可以基于任何数据源创建。
- 1
- 2
- 3
- 4
- 5
前往页