
spark
max_hello
雄关漫道真如铁,而今迈步从头越。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark RDD[Row] 字段太多优化处理
val buffer: mutable.Buffer[Object] = Row.unapplySeq(row).get.map(_.asInstanceOf[Object]).toBuffer buffer.append(要加的字段) val schema: StructType = row.schema.add("aaa", StringType)....原创 2019-12-13 10:21:29 · 1399 阅读 · 0 评论 -
yarn rest接口监控mr spark 任务
yarn rest api :yarn rest api sparkstreaming消息延迟监控处理:http://ip:8088/proxy/yarn _application_id/metrics/json原创 2019-10-15 14:45:38 · 755 阅读 · 0 评论 -
Spark性能调优
Spark性能调优之Shuffle调优 • Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。 • shuffle过程中常出现的问题 常见问题一:reduce oom? 问题原因: reduce task 去map端获取数据,reduce一边拉取数据一...转载 2018-09-27 16:07:01 · 239 阅读 · 0 评论 -
SBT命令打包报错解决办法
打包 package 清除 clean 堆栈溢出 出现错误:java.lang.StackOverflowError 对于这个溢出,需要更改stack的大小,找到sbt的配置文件conf下的:sbtconfig.txt,添加内容: -Xss2m 内存溢出 出现错误:java.lang.OutOfMemoryError 常见的内存溢出现象,添加配置信息: -Xms6...转载 2018-11-02 12:47:05 · 3155 阅读 · 0 评论 -
程序中Hadoop和Spark设置用户访问hdfs
1.对于hadoop而言 如果hadoop没有启Kerberos或者从Kerberos获取的用户为null,那么获取HADOOP_USER_NAME环境变量,并将它的值作为Hadoop执行用户。如果我们没有设置HADOOP_USER_NAME环境变量,那么程序将调用whoami来获取当前用户,并用groups来获取用户所在组。 所以可以设置环境变量: export HADOOP_USER_NA...转载 2019-02-26 17:52:11 · 3083 阅读 · 0 评论