
Hive
文章平均质量分 60
Hive
yujkss
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive入门官网文档
文章目录http://hive.apache.org/原创 2021-06-01 22:59:23 · 2451 阅读 · 0 评论 -
Hive-内置函数:根据身份证规则从身份证号提取年龄和性别
身份证号的规则不再赘述,需要注意目前一些老数据还是存在15位的身份证号,代码如下: select id_no, id_no, case when length(id_no) = 18 then floor(datediff( from_unixtime(unix_timestamp(),'yyyy-MM-dd'), concat_ws('-',substr(id_no,7,4),substr(id_no,11,2),转载 2021-04-18 12:10:59 · 2454 阅读 · 0 评论 -
hive的insert语句列顺序问题以及新增字段遇到的坑
讲问题之前,先简单创建一个表:CREATE TABLE IF NOT EXISTS `my.test_table`( `col1` int COMMENT "第一列", `col2` int COMMENT "第二列")COMMENT "测试表"PARTITIONED BY (`pt` int COMMENT "测试分区")ROW FORMAT SERDE "org.apache.hadoop.hive.ql.io.orc.OrcSerde"STORED AS INPUTFORMAT转载 2021-04-01 07:03:34 · 3917 阅读 · 0 评论 -
Hive - INSERT INTO vs INSERT OVERWRITE区别
Hive - INSERT INTO vs INSERT OVERWRITE区别两者的异同:insert into 与 insert overwrite 都可以向hive表中插入数据,但是insert into直接追加到表中数据的尾部,而insert overwrite会重写数据,既先进行删除,再写入。如果存在分区的情况,insert overwrite会只重写当前分区数据。在使用Hive时,我们经常遇到两种不同类型的insert HiveQL命令insert INTO和insert OVERW原创 2021-03-31 23:48:08 · 3303 阅读 · 0 评论 -
Hive和数据库有什么区别
由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。从以下七个方面进行比较:1.查询语言由于SQL被广泛的应用在数据仓库中,因此,专门针对Hive的特性设计了类SQL的查询转载 2021-03-01 20:18:21 · 3384 阅读 · 0 评论 -
HBase 和 Hive 的差别是什么,各自适用在什么场景中?
先放结论:Hbase和Hive在大数据架构中处在不同位置,Hbase主要解决实时数据查询问题,Hive主要解决数据处理和计算问题,一般是配合使用。一、区别:Hbase: Hadoop database 的简称,也就是基于Hadoop数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为等。Hive:Hive是Hadoop数据仓库,严格来说,不是数据库,主要是让开发人员能够通过SQL来计算和处理HDFS上的结构化数据,适用于离线的批量数据计算转载 2021-03-01 20:13:39 · 217 阅读 · 0 评论 -
Hive常见的数据错位及修复技巧【转载】
转自:https://zhuanlan.zhihu.com/p/348698298前言在进行大数据开发过程中,避免不了遇到数据错位的情况。出现数据错位的情况通常处于大数据开发的上游环节,为了保证数据质量需要对Hive表数据进行修复处理,本文由一次真实的Hive数据错位修复经历所启发,在这个基础上总结和扩展数据错位发生场景、数据错位修复思路和修复案例演示demo。01 发生数据错位的场景首先需要清楚以下2个概念:上游数据来源表为不同渠道的数据,如关系型数据库MySQL的数据、网站或应用的埋点数据.转载 2021-03-30 22:08:42 · 3994 阅读 · 1 评论