
大数据组件
文章平均质量分 78
大数据专栏致力于分享大数据领域的最新动态、前沿技术与应用案例。这里汇聚了专家观点、行业分析,以及深入浅出的技术解读,为读者呈现一个全面而立体的大数据世界。无论您是技术爱好者、行业从业者还是学术研究者,都能在这里找到有价值的信息和启示,共同推动大数据产业的发展与创新。
GawynKing
约定大于配置;配置大于设计;设计大于定制.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据仓库保存历史数据方法之拉链表
在20170101~20170102期间内10003的job为mysql,在20170102~20170103期间内10003的job为mongodb,在20170103~30001231期间内10003的job为hive。个人所接触项目经验,如果极端采用某一种架构,最后数仓项目成功概率都很低,因此个人建议结合两种架构的优点进行数仓设计(即三范式简历数仓明细层,集市层采用星型模型设计方法),合理结合两种思路优点可以有效的避免业务驱动方式带来的烦杂工作以及需求驱动所带来的后期维护及扩展性问题。原创 2024-03-10 03:34:42 · 1466 阅读 · 3 评论 -
维度属性冗余一个map类型的字段供大宽表应用的可行性
str_to_map(concat('user_id:',nvl(cert_id,'-1'),',user_name:',nvl(customer_name,'-1'),',sex:','男',',mobile:',nvl(phone,'-1')))建立一个map 字段(其他属性改怎么处理怎么处理,并不是用map替代其他属性),把维度的所有属性按 属性名:属性值 的格式写进map, 在最终的大宽表中,不再罗列该维度的所有属性,只添加该维度的map属性。原创 2024-03-10 03:31:52 · 971 阅读 · 1 评论 -
拉链表-增量更新方法一
参考文档:http://lxw1234.com/archives/2015/08/473.htm一、元表结构1、定义业务库原始订单表:drop table chavin.orders;CREATE TABLE orders (orderid INT,createtime STRING,modifiedtime STRING,status STRING)row format de...原创 2017-09-27 13:05:00 · 61 阅读 · 0 评论 -
一道hive SQL面试题
一、hive中实现方法基表:组表:gtgidgname1001g11002g21003g3create table g(gid int,gname string)row format delimited fields terminated by '\t'stored as textfile;用户...原创 2017-09-27 13:04:00 · 59 阅读 · 0 评论 -
hive时间日期函数及典型场景应用
1、hive取得当前日期时间:1.1) 取得当前日期:select current_date();1.2) 取得当前日期时间:select current_timestamp();1.3) hive取得当前时间戳:select unix_timestamp();1.4) 时间戳转日期:select from_unixtime(1517725479,'yyyy-MM-dd HH:d...原创 2018-03-05 18:17:00 · 44 阅读 · 0 评论 -
Hive函数大全
数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)Returns a rounded to d decimal places.返回DOUBLE型d的保留n位小...原创 2017-09-27 13:14:00 · 78 阅读 · 0 评论 -
Spark开发wordcount程序
1、java版本(spark-2.1.0)package chavin.king;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.api.java.function.FlatMapFunction;import org.apache.spark.api.java.function.Fun...原创 2019-01-11 06:18:00 · 39 阅读 · 0 评论 -
Spark核心算子
Spark RDD:TransformationMeaningmap(func)返回一个新的分布式数据集,该数据集是通过将源的每个元素传递给函数func处理形成的。filter(func)返回一个新的数据集,该数据集是通过func处理后在其上返回true 的源元素形成的。flatMap(func)与map相似,但是每个输入项都可以映射成0个或多个输出项(因此func应该返回Seq而不是单个项)。...原创 2020-02-28 02:11:00 · 43 阅读 · 0 评论 -
Hive日志(Hive Logging)--hive GettingStarted翻译
Hive uses log4j for logging. By default logs are not emitted to the console by the CLI. The default logging level is WARN for Hive releases prior to 0.13.0. Starting with Hive 0.13.0, the default log...原创 2017-06-29 16:11:00 · 103 阅读 · 0 评论 -
使用hive分析nginx访问日志方法
以下案例是使用hive分析nginx的访问日志案例,其中字段分隔通过正则表达式匹配,具体步骤如下:日志格式:192.168.5.139 - - [08/Jun/2017:17:09:12 +0800] "GET //oportal/static/ui/layer/skin/default/icon.png HTTP/1.1" 200 9905 http://192.168.100.126//...原创 2017-06-22 17:32:00 · 52 阅读 · 0 评论 -
简单示例用例(Simple Example Use Cases)--hive GettingStarted用例翻译
1、MovieLens User RatingsFirst, create a table with tab-delimited text file format:首先,创建一个通过tab分隔的表:CREATE TABLE u_data ( userid INT, movieid INT, rating INT, unixtime STRING)ROW FORMA...原创 2017-06-26 23:13:00 · 52 阅读 · 0 评论 -
spark分组统计及二次排序案例一枚
组织数据形式:aa 11bb 11cc 34aa 22bb 67cc 29aa 36bb 33cc 30aa 42bb 44cc 49需求:1、对上述数据按key值进行分组2、对分组后的值进行排序3、截取分组后值得top 3位以key-value形式返回结果答案如下:val groupTopNRdd = sc.textFile("hdfs://db02:802...原创 2017-05-24 13:12:00 · 49 阅读 · 0 评论 -
Hive:ORC File Format存储格式详解
一、定义 ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比,ORC File格式有以下优点:(1)、每个task只...原创 2017-05-14 20:58:00 · 99 阅读 · 0 评论 -
编译安装spark 1.5.x(Building Spark)
原文连接:http://spark.apache.org/docs/1.5.0/building-spark.html· Building with build/mvn· Building a Runnable Distribution· Setting up Maven’s Memory Usage· Specifying the Hadoop Version· Building W...原创 2017-05-16 15:20:00 · 135 阅读 · 0 评论 -
CM5.x配置spark错误解决
通过cloudera manager 5.x添加spark服务,在创建服务过程中,发现spark服务创建失败,可以通过控制台错误输出看到如下日志信息:+ perl -pi -e 's#{{CMF_CONF_DIR}}#/etc/spark/conf.cloudera.spark_on_yarn/yarn-conf#g' /opt/cm-5.9.2/run/cloudera-scm-ag...原创 2017-05-15 17:47:00 · 46 阅读 · 0 评论 -
spark运行wordcount程序
首先提一下spark rdd的五大核心特性:1、rdd由一系列的分片组成,比如说128m一片,类似于hadoop中的split2、每一个分区都有一个函数去迭代/运行/计算3、一系列的依赖,比如:rdda转换为rddb,rddb转换为rddc,那么rddc依赖于rddb,rddb依赖于rdda。 lineage:保存了一些列的转换4、对于每个k-v的rdd可以指定一个partition,告诉它如...原创 2017-05-23 09:47:00 · 59 阅读 · 0 评论 -
hive中创建子表并插入数据过程初始化MR报错解决方法
本文继成上一篇通过hive分析nginx日志文章,详情参考下面链接:http://www.cnblogs.com/wcwen1990/p/7066230.html接着来:创建业务子表:drop table if exists chavin.nginx_access_log_comm;create table if not exists chavin.nginx_access_log_c...原创 2017-06-24 19:54:00 · 42 阅读 · 0 评论 -
Spark安装部署(local和standalone模式)
Spark运行的4中模式:LocalStandaloneYarnMesos一、安装spark前期准备1、安装java$ sudo tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/service/export JAVA_HOME=/opt/service/jdk1.7.0_67export PATH=$JAVA_HOME/b...原创 2017-05-22 15:02:00 · 64 阅读 · 0 评论 -
开启spark日志聚集功能
spark监控应用方式:1)在运行过程中可以通过web Ui:4040端口进行监控2)任务运行完成想要监控spark,需要启动日志聚集功能开启日志聚集功能方法:编辑conf/spark-env.sh文件,在其中加入如下部分:SPARK_HISTORY_OPTS=-Dspark.history.provider=org.apache.spark.deploy.history.FsHist...原创 2017-05-26 13:24:00 · 61 阅读 · 0 评论 -
hive分析nginx日志之UDF清洗数据
hive分析nginx日志一:http://www.cnblogs.com/wcwen1990/p/7066230.htmlhive分析nginx日志二:http://www.cnblogs.com/wcwen1990/p/7074298.html接着来看:1、首先编写UDF,如下:--使用String类型的replaceAll()函数:package net.dbking.hadoo...原创 2017-06-26 14:09:00 · 55 阅读 · 0 评论 -
HDFS Snapshots
OverviewHDFS Snapshots are read-only point-in-time copies of the file system. Snapshots can be taken on a subtree of the file system or the entire file system. Some common use cases of snapshots are...原创 2017-04-22 19:30:00 · 59 阅读 · 0 评论 -
HFTP Guide
Introduction(说明)HFTP is a Hadoop filesystem implementation that lets you read data from a remote Hadoop HDFS cluster. The reads are done via HTTP, and data is sourced from DataNodes. HFTP is a read-...原创 2017-04-23 14:52:00 · 78 阅读 · 0 评论 -
HDFS文件上传
下图描述了Client向HDFS上传一个200M大小的日志文件的大致过程:1)首先,Client发起文件上传请求,即通过RPC与NameNode建立通讯。2)NameNode与各DataNode使用心跳机制来获取DataNode信息。NameNode收到Client请求后,获取DataNode信息,并将可存储文件的节点信息返回给Client。3)Client收到NameNode返回的信息...原创 2017-04-20 00:04:00 · 53 阅读 · 0 评论 -
Hive之import和export使用详解
在hive-0.8.0后引入了import/export命令。Export命令可以导出一张表或分区的数据和元数据信息到一个输出位置,并且导出数据可以被移动到另一个hadoop集群或hive实例,并且可以通过import命令导入数据。当导出一个分区表,原始数据可能在hdfs的不同位置,export/import命令也支持导出分区表的不同子分区。导出的元数据存储在目标目录,并且数据文件是存储在...原创 2017-05-12 15:50:00 · 97 阅读 · 0 评论 -
Hadoop 2.x完全分布式安装
前期规划192.168.100.231 db01192.168.100.232 db02192.168.100.233 db03一、安装java[root@master ~]# vim /etc/profile在末尾添加环境变量:export JAVA_HOME=/...原创 2017-04-20 15:48:00 · 63 阅读 · 0 评论 -
Hive和Sqoop测试数据
测试数据以Oracle数据库自带scott用户emp和dept表为准:一、MySQL数据库创建的emp和dept表语法及数据:drop table if exists dept;create table dept( deptno int not null comment '部门编号', dname varchar(14) comment '部门名称', loc varchar...原创 2017-04-20 12:58:00 · 45 阅读 · 0 评论 -
HiveQL之Sort by、Distribute by、Cluster by、Order By详解
在这里解释一下select语法中的order by、sort by、distribute by、cluster by、order by语法。一、order by语法在hiveQL中Order by语法类似于sql语言中的order by语法。colOrder: ( ASC | DESC )colNullOrder: (NULLS FIRST | NULLS LAST)...原创 2017-05-12 17:58:00 · 90 阅读 · 0 评论 -
Zookeeper简介及单机、集群模式搭建
1、zookeeper简介一个开源的分布式的,为分布式应用提供协调服务的apache项目。提供一个简单的原语集合,以便于分布式应用可以在它之上构建更高层次的同步服务。设计非常易于编程,它使用的是类似于文件系统那样的树形数据结构。目的就是将分布式服务不再需要由于协调冲突而另外实现协作服务。2、zookeeper角色介绍Leader:负责进行投票发起和决议,更新系统状态。Learner...原创 2017-04-20 18:54:00 · 51 阅读 · 0 评论 -
hadoop 2.x HA(QJM)安装部署规划
一、主机服务规划:db01 db02 db03 db04 d...原创 2017-04-21 19:45:00 · 56 阅读 · 0 评论 -
YARN架构设计详解
一、YARN基本服务组件 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理...原创 2017-04-20 11:53:00 · 62 阅读 · 0 评论 -
HDFS Federation
This guide provides an overview of the HDFS Federation feature and how to configure and manage the federated cluster.这篇文档包好了hdfs federation特点的概述和如何配置并且管理federation集群。Background(背景)HDFS has two main l...原创 2017-04-22 19:31:00 · 49 阅读 · 0 评论 -
ResourceManager High Availability
IntroductionThis guide provides an overview of High Availability of YARN’s ResourceManager, and details how to configure and use this feature. The ResourceManager (RM) is responsible for tracking th...原创 2017-04-18 15:41:00 · 50 阅读 · 0 评论 -
启用mapredure历史服务器方法
在mapred-site.xml配置文件中添加如下信息: <property> <name>mapreduce.jobhistory.address</name> <value>chavin.king:10020</value> </prop...原创 2017-04-19 00:39:00 · 43 阅读 · 0 评论 -
Cloudrea manager5安装CDH5文档
一、主机规划、存储规划服务器配置信息:CentOS6.5 最小化安装+development tools组包,其余组件yum安装即可。二、系统设置如下:1、服务器信息如下(/etc/hosts文件):192.168.100.231 db01.chavin.king db01192.168.100.232 db02.chavin.king db02192.168.100.233...原创 2017-04-18 11:23:00 · 44 阅读 · 0 评论 -
启用yarn日志聚集功能
在yarn-site.xml配置文件中添加如下内容:##开启日志聚集功能 <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property&g...原创 2017-04-19 00:40:00 · 58 阅读 · 0 评论 -
Hadoop Single Node Setup(hadoop本地模式和伪分布式模式安装-官方文档翻译 2.7.3)
Purpose(目标)This document describes how to set up and configure a single-node Hadoop installation so that you can quickly perform simple operations using Hadoop MapReduce and the Hadoop Distributed F...原创 2017-04-18 18:56:00 · 64 阅读 · 0 评论 -
HDFS Architecture
IntroductionThe Hadoop Distributed File System (HDFS) is a distributed file system designed to run on commodity hardware. It has many similarities with existing distributed file systems. However, th...原创 2017-04-18 13:47:00 · 56 阅读 · 0 评论 -
hadoop的两类配置文件及3种启动/关闭方式
hadoop配置文件 默认配置文件:四个模块相对应的jar包中:$HADOOP_HOME/share/hadoop *core-default.xml *hdfs-default.xml *yarn-default.xml *mapred-default.xml 用户自定义配置文件:$HADOOP_HOME/etc/h...原创 2017-04-19 00:42:00 · 51 阅读 · 0 评论 -
hadoop(角色)各个组件配置信息
1)namenode: core-site.xml文件中决定: <property> <name>fs.defaultFS</name> <value>hdfs://chavin.king:9000</value>...原创 2017-04-19 00:44:00 · 47 阅读 · 0 评论 -
YARN Architecture
The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separate daemons. The idea is to have a global ResourceManager (RM) ...原创 2017-04-18 15:12:00 · 57 阅读 · 0 评论