
spark
cherish-zp
A man seeking for wisdom .
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive 自定义 udf udtf 函数
hive 自定义UDF 函数package com.atguigu.udf;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;/** * @author cherish * @create 2020-0...原创 2020-04-20 18:09:58 · 257 阅读 · 0 评论 -
spark的map和mapPartitions
1、map是对数据1对1的遍历,传输效率相对比较差,相比起mapPartitions不会出现内存溢出2、mapPartitions 对一个rdd里所有分区遍历 效率优于map算子,减少了发送到执行器执行的交互次数,mapPartitions是批量将分区数据一次发送 但是执行器内存不够的则可能会出现内存溢出(OOM) 假设有N个元素,有M个分区,那么map的函数的将被...原创 2020-04-12 21:30:10 · 418 阅读 · 0 评论 -
spark 累加器 ,共享变量
spark中 3大数据结构RDD : (弹性分布,分布式数据集)广播变量 : 分布式的 只读共享变量累加器 : 分布式的只写共享变量 在某些情况下用rdd计算不是很好,所以有了 广播变量和累加器 例: val ints: RDD[Int] = spark.sparkContext.makeRDD(Array(1, 2, 3, 4), 2) ...原创 2020-04-10 10:58:32 · 214 阅读 · 0 评论