
Spark
文章平均质量分 95
墨尔本、晴
软件测试工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[测试]1.TPC-DS性能测试
通过EMR运行基于OSS-HDFS服务的TPC-DS Benchmark了解数据查询和分析的性能表现_对象存储(OSS)-阿里云帮助中心 (aliyun.com)原创 2024-09-07 00:17:30 · 950 阅读 · 0 评论 -
[Hive]三、Hive On Spark
集群由5台节点构成,其中2台为master节点,用于部署HDFS的NameNode,Yarn的ResourceManager等角色,另外3台为worker节点,用于部署HDFS的DataNode、Yarn的NodeManager等角色。5. HQL调优手段:聚合、join等方面着手,观察调优效果。Workder节点配置为32核CPU、128G内存。Master节点配置为16核CPU、64G内存。4. 数据体量:以电商表为模板,单表160GB。2. Spark进程。原创 2024-07-05 22:47:07 · 138 阅读 · 0 评论 -
[Spark]一、Spark基础入门
Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。目的:点击yarn(8088)上spark任务的history按钮,进入的是spark历史服务器(18080),而不再是yarn历史服务器(19888)。# 参数3含义:指定保存Application历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。原创 2024-06-18 02:09:28 · 4268 阅读 · 0 评论 -
[Spark]二、SparkCore
RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要注意的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。第1个job执行完,数据就保存到Cache里面了,第2个job运行checkpoint,直接读取Cache里面的数据,并把数据存储在检查点上。Spark的排序结果是全局有序。原创 2024-06-19 00:51:18 · 679 阅读 · 0 评论 -
[Spark]三、SparkSQL
与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。当我们使用spark-shell的时候,Spark框架会自动的创建一个名称叫做Spark的SparkSession,就像我们以前可以自动获取到一个sc来表示SparkContext。SparkSQL读取和保存的文件一般为三种,JSON文件、CSV文件和列式存储的文件,同时可以通过添加参数,来识别不同的存储和压缩格式。原创 2024-06-19 01:21:22 · 900 阅读 · 0 评论