三吱儿-CSDN博客

原创 2021-08-04 原子指标，派生指标，衍生原子指标定义

原子指标:和度量含义相同，某一业务行为事件下的度量，是业务定义中不可拆分的指标，如销售金额、库存数量。派生指标:修饰词和原子指标组合生成派生指标。如某个渠道的销售金额，渠道类型为修饰词，销售金额为原子指标，分销销售金额、智药通销售金额为派生指标修饰词:修饰词用于派生指标和复合指标的定义，不含有计算口径。指除了统计维度以外指标的业务场景，如某个维表的属性字段，客户类型，渠道类型。衍生原子指标:原子指标根据衍生词的计算口径加工得到的衍生原子指标。如近效期库存,近效期(所属业务单元内，

2021-08-04 16:50:39 2853

原创 2021-03-30 hive impala udf 测试

udf 代码参考package org.ydd.hivetest;import org.apache.hadoop.hive.ql.exec.UDF;public class Null2Num extends UDF { public static String evaluate(String str, int range) { int seq = (int) (Math.random() * range); return str == null || s

2021-03-30 16:54:53 180

原创 2021-03-29 spark sql not in 造成的执行缓慢

背景：同事写了很长一段sql，执行时间特别长，让我帮他优化一下执行引擎：spark 一个小时都跑不出结果，卡在mapshuffle阶段impala 不到一分钟出结果过程：多次调试：怀疑是GC引起的，尝试修改driver，executor内存，无效set spark.executor.memory = 4g;set spark.driver.memory = 10g;set spark.sql.adaptive.shuffle.targetPostShuffleInputSiz

2021-03-29 15:43:14 1122

原创 2021-03-09 hive 参数设置

查看hive参数查看所有参数set查看block大小set dfs.block.size;dfs.block.size=134217728 --默认大小128Mmap个数(和inputsize相关)计算inputsplit size新API CombineHiveInputFormat Math.max(minSize, Math.min(maxSize, blockSize))老API HiveInputFormat Math.max(minSize, Math.min(goalSiz

2021-03-09 20:19:07 816

原创 2021-03-09 hive explain 执行计划分析2

hive explain 执行计划分析sql如下：explainselect fhddate,vouchtype,sum(quantity),row_number() over() rn,rank() over(partition by fhddate order by vouchtype) rkfrom jmkx_data.ods_dm_base_fhd_dd aleft join jmkx_data.ods_dm_base_fhd_detail_dd bon a.fhdid = b.fhdi

2021-03-09 14:30:07 200

原创 2021-03-09 hive explain 执行计划分析1

hive explain 执行计划分析sql如下：explainselect fhddate,vouchtype,sum(quantity)from jmkx_data.ods_dm_base_fhd_dd aleft join jmkx_data.ods_dm_base_fhd_detail_dd bon a.fhdid = b.fhdid and b.dt = '2020-03-08'where a.dt = '2021-03-08'group by fhddate,vouchtype

2021-03-09 11:32:40 128

qq_22482081的博客