
大数据——数仓工具Hive
文章平均质量分 73
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能
友培
感觉数据+AI之美
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
读《Hive实战》随笔
1、5个和Hive相关的服务:Hive Metastore、HiveServer2、Mysql Server、WebHCat Server、Hive Client 2、Hive 是一个分析的工具,不会取代现有的一个联机事务处理(OLTP 传统数据库开发) 3、schema-on-read:读时模型,即在写的时候直接存储,需要分析读取的时候再将其赋予一定的结构 schema-on-write:写时模型,即在入库之前就得定义好结构(传统数据库) 4、Hive的文件存储在Hdfs上,但是为这些文件定义存储模式的元原创 2021-07-13 18:36:33 · 135 阅读 · 2 评论 -
Hive学习视频心得(六)Hive实战之某视频网站分析
文章目录Hive实战之某视频网站分析一、项目需求简介二、项目具体步骤1)、数据结构①、视频表②、用户表2)、项目准备3)、数据准备4)、数据处理(ETL)①、ETLMapper.java②、ETLDriver.java③、打包提交集群执行④、ETL执行完成后截图5)、Hive端导入数据①、项目创库②、项目建表a、外部表b、内部表c、外部向内部数据导入三、处理项目需求1)、统计视频观看数Top102)、统计视频类别热度Top103)、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数4原创 2021-01-19 23:30:19 · 2497 阅读 · 1 评论 -
Hive学习视频心得(五)自定义UDF函数、压缩存储、企业级调优
文章目录1、系统内置函数2、自定义函数(UDF)(路径不唯一)3、压缩1)、开启Map输出阶段压缩2)、开启Reduce输出阶段压缩4、存储1)、列式存储和行式存储5、存储和压缩对比1)、比较各种存储格式2)、比较各种压缩格式6、Fetch抓取7、表的优化1)、小表大表join2)、大表大表join3)、笛卡尔积4)、行列过滤5)、动态分区★★★8、合理设置Map及Reduce数1)、复杂文件增加Map数2)、小文件进行合并3)、合理设置Reduce数 1、系统内置函数 --查看系统自带的函数 show f原创 2021-01-18 20:15:45 · 272 阅读 · 0 评论 -
Hive学习视频心得(四)常用查询函数
文章目录常用查询函数1、空字段赋值(NVL)2、CASE WHEN(相当于java的switch case)3、行转列(聚合)4、列转行5、窗口函数(开窗函数)6、Rank(排名)7、日期函数(部分)8、练习题 常用查询函数 1、空字段赋值(NVL) 给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL ,则返回NULL。 --NVL(原创 2021-01-14 20:28:47 · 246 阅读 · 0 评论 -
Hive学习视频心得(三)查询
一、基本查询 1)、数据准备 --部门表 create table if not exists dept( deptno int, dname string, loc int ) row format delimited fields terminated by '\t'; --员工表 create table if not exists emp( empno int, ename string, job string, mgr int, hiredate string, sal double, co原创 2021-01-13 14:49:26 · 179 阅读 · 0 评论 -
Hive学习视频心得(二)数据类型、DDL、内外表、分区表、DML
1、Hive的数据类型 1)、基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOLEAN boolean 布尔类型,true或者false TRUE FALSE FLOAT float 单精度浮点数 3.14159 DOUBLE double 双原创 2021-01-10 22:14:27 · 224 阅读 · 0 评论 -
Hive学习视频心得(一)Hive基本介绍
1、Hive的基本介绍 本质是:将HQL转化成MapReduce程序 ①、Hive处理的数据存储在HDFS ②、Hive分析数据底层的实现是MapReduce ③、执行程序运行在Yarn上 2、Hive优缺点 1)、优点 ①、操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 ②、避免了去写MapReduce,减少开发人员的学习成本。 ③、Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。 ④、Hive优势在于处理大数据原创 2021-01-10 09:32:17 · 280 阅读 · 0 评论