
hadoop、hive
文章平均质量分 70
请叫我超哥
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive、sparksql行转列 列转行详解
行转列、列转行详解原创 2022-07-01 18:28:30 · 1286 阅读 · 0 评论 -
hive窗口函数详解窗口长度设置(详细,干货满满)
窗口函数是一种不需要使用group by也能进行聚合计算的强大分析函数 以下是经过自己使用的一些感悟: 1),窗口函数不是某个函数,它是 “一批” 的函数的总称 2),窗口函数适用于增量写入的计算场景 3),窗口函数适用于“组内排名”的计算场景 4),窗口函数可用于非null判断的循环查找场景 … 常用的窗口函数简介: 1)、窗口聚合计算函数 sum(col) over() : 分组对col累计求和, count(col) over() : 分组对col累计, min(col) over() : 分组对c原创 2021-02-02 16:34:53 · 838 阅读 · 0 评论 -
hive动态分区,分区数据的几种插入方式,hive常用优化
首先列举下hive分区插入的方式: 1:从文件导入数据到hive指定分区方式 load data local inpath ‘filepath’ into table tableName partition(partitionColumn=’’); 2:先创建分区,再把文件通过任何别的方式把数据已对应格式(列分隔符可以是’\t’,’\001’等)放到对应hdfs路径下。 手动创建分区 alter ...原创 2019-11-21 16:18:39 · 9801 阅读 · 1 评论 -
基于hadoop、hive的离线数据分析问题集锦
1、小文件合并。nginx+flume+hdfs的架构采集、存储日志,但是flume采集的日志最终会有很多的小文件存储到hdfs,令人难受的是hdfs并不适用于处理大量小文件,但是好在hadoop的mapreduce提供了可以批量合并小文件的方式,这里直接上干货代码: 在这里插入代码片 package baobei.data.etl; import java.io.IOException; im...原创 2019-05-24 21:17:54 · 935 阅读 · 0 评论 -
snappy的安装
hive经常使用snappy的压缩格式,但是hadoop本身是并不支持snappy格式的压缩的(可以通过hadoop checknative指令查看),想要hadoop支持snappy类型的压缩则需要编译hadoop对应版本的源码,编译成功后把native文件copy到hadoop的目录下,重启hadoop即可。想象的挺好的,but正在的大坑在编译的阶段,弄了两天才弄好下面是我的一些总结: 编译h...原创 2019-05-26 17:16:20 · 1699 阅读 · 0 评论