- 博客(6)
- 收藏
- 关注
原创 2021-08-04 原子指标,派生指标,衍生原子指标定义
原子指标:和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如销售金额、库存数量。派生指标:修饰词和原子指标组合生成派生指标。如某个渠道的销售金额,渠道类型为修饰词,销售金额为原子指标,分销销售金额、智药通销售金额为派生指标修饰词:修饰词用于派生指标和复合指标的定义,不含有计算口径。指除了统计维度以外指标的业务场景,如某个维表的属性字段,客户类型,渠道类型。衍生原子指标:原子指标根据衍生词的计算口径加工得到的衍生原子指标。如近效期库存,近效期(所属业务单元内,
2021-08-04 16:50:39
2853
原创 2021-03-30 hive impala udf 测试
udf 代码参考package org.ydd.hivetest;import org.apache.hadoop.hive.ql.exec.UDF;public class Null2Num extends UDF { public static String evaluate(String str, int range) { int seq = (int) (Math.random() * range); return str == null || s
2021-03-30 16:54:53
180
原创 2021-03-29 spark sql not in 造成的执行缓慢
背景:同事写了很长一段sql,执行时间特别长,让我帮他优化一下执行引擎:spark 一个小时都跑不出结果,卡在mapshuffle阶段impala 不到一分钟出结果过程:多次调试:怀疑是GC引起的,尝试修改driver,executor内存,无效set spark.executor.memory = 4g;set spark.driver.memory = 10g;set spark.sql.adaptive.shuffle.targetPostShuffleInputSiz
2021-03-29 15:43:14
1122
原创 2021-03-09 hive 参数设置
查看hive参数查看所有参数set查看block大小set dfs.block.size;dfs.block.size=134217728 --默认大小128Mmap个数(和inputsize相关)计算inputsplit size新API CombineHiveInputFormat Math.max(minSize, Math.min(maxSize, blockSize))老API HiveInputFormat Math.max(minSize, Math.min(goalSiz
2021-03-09 20:19:07
816
原创 2021-03-09 hive explain 执行计划分析2
hive explain 执行计划分析sql如下:explainselect fhddate,vouchtype,sum(quantity),row_number() over() rn,rank() over(partition by fhddate order by vouchtype) rkfrom jmkx_data.ods_dm_base_fhd_dd aleft join jmkx_data.ods_dm_base_fhd_detail_dd bon a.fhdid = b.fhdi
2021-03-09 14:30:07
200
原创 2021-03-09 hive explain 执行计划分析1
hive explain 执行计划分析sql如下:explainselect fhddate,vouchtype,sum(quantity)from jmkx_data.ods_dm_base_fhd_dd aleft join jmkx_data.ods_dm_base_fhd_detail_dd bon a.fhdid = b.fhdid and b.dt = '2020-03-08'where a.dt = '2021-03-08'group by fhddate,vouchtype
2021-03-09 11:32:40
128
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人