
spark
文章平均质量分 53
~shallot~
简单的练习如果持之以恒,就会获得某种神奇的力量。在获得之前,他很神奇,但获得之后,却也很平淡
-------------------------------------------------
知识,哪怕是知识的幻影,也会成为你的铠甲,保护你不被愚昧反噬
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 批量读取HDFS(hive分区)parquet文件
情况说明:数据以parquet文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示: 项目需求: 在项目中想要读取某一个月的数据,肿么办? 解决方法: spark中读取本地文件的方法如下:sparkSession.read.parquet("hdfs://path")方法一: 要读取多个文件,文件的路径中有一段公共路径原创 2017-12-18 16:38:19 · 15026 阅读 · 1 评论 -
Apache Spark探秘:多进程模型还是多线程模型?
Apache Spark探秘:多进程模型还是多线程模型? 原文链接转载 2017-11-23 10:58:53 · 968 阅读 · 0 评论 -
spark提交任务参数–executor-cores设置不起作用
问题描述1.虽然目前大多数平台内置Application在提交时,只配置了–num-executors和–executor-memory参数,但是其他APP的开发者可能会配置–executor-cores参数。举个例子:./spark-submit –master yarn-client –executor-cores 4 –num-executors 6 –executor-memory...原创 2018-11-22 20:13:25 · 7557 阅读 · 0 评论 -
集群主备切换后任务未能在新的主节点上自动重启
问题描述:在集群运行过程中发现一旦主备切换后,原来正常运行的任务在新的主节点上不能自动从启解决方法:在yarn-site.xml中增加以下配置项:<property> <description>Enable RM to recover state after starting. If true, then yarn.resourcemanager.stor...原创 2018-11-22 22:27:12 · 329 阅读 · 0 评论 -
集群无法启动多个spark任务,资源无法分配问题
问题描述:在集群上同时提交多个任务,但是发现集群的资源还有很多,但是任务却无法起来,一直处于Accepted状态解决方法:这种情况一般是由于yarn可调度的资源不够而并非集群的资源不够,修改Hadoop/etc/hadoop/capacity-scheduler.xml,将value从0.1改为0.5,增加yarn可调度的资源数<property> <name&g...原创 2018-11-22 22:29:08 · 1279 阅读 · 0 评论 -
大数据中常用的几种数据格式对比(avro、orc、parquet)
不同数据格式特点1). AVRO:主要为行存储设计的主要目标是为了满足schema evolutionschema和数据保存在一起2). ORC:面向列的存储格式由Hadoop中RC files 发展而来,比RC file更大的压缩比,和更快的查询速度Schema 存储在footer中不支持schema evolution为hive而生,在许多non-hive MapR...原创 2018-11-26 17:41:18 · 10775 阅读 · 5 评论 -
Spark Structed Streaming 入门详解
一、概述Structed Streaming 是一个可扩展和容错能力构建与Spark Sql引擎上的流处理引擎。你可以像采用批次处理静态数据一样处理流式数据。随着流数据的不断流入,Sparksql引擎会增量的连续不断的处理并且更新结果。可以使用DataSet/DataFrame的API进行 streaming aggregations, event-time windows, stream-to...原创 2018-11-26 20:18:33 · 2059 阅读 · 0 评论