
大数据
MoForest
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据基础概念
大数据基础 大数据 通俗意思就是海量数据,通常无法使用常规软件在一定的时间范围内进行捕捉管理或者分析,需要一定的处理模式才能具有更强的决策力、洞察发现力和优化流程能力。 数据仓库(DW) 面向主题的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 商务智能的基础平台。 它是用于支持决策,面向分析型数据处理,不同于操作型数据库(面向应用),多个异构的数据源有效集成,按照主题重组,存放到仓库中...原创 2019-06-06 10:10:15 · 676 阅读 · 0 评论 -
HBase详解
1. 基本介绍 1.1 HBase概念 HBase是一种建立在Hadoop文件系统(利用HDFS)上的分布式面向列的数据库,是Hadoop生态系统中的一员。 1.2 HBase为什么出现 首先,大数据最常用的是Hadoop,它使用分布式文件系统(HDFS)存储大数据,并且通过自己的计算引擎(MapReduce)来处理数据,而MapReduce是函数式编程模型,它适用于处理各种庞大的数据。 ...原创 2019-06-06 16:59:33 · 841 阅读 · 0 评论 -
Kylin原理详解
1. 基本介绍 1.1 Kylin简介 Kylin就是一个解决TB级别数据的数据分析需求的系统,通过预计算方式缓存了所有需要查询的数据结果,需要大量的存储空间。 1.2 为什么出现 首先需要明确OLAP和OLTP的概念。 简单来说OLTP(联机事务处理过程) 是面向交易过程的,特点就是需要即时处理。OLAP(联机分析处理) 支持复杂分析操作,侧重于对决策的支持,要求快速的对大数据量进行查询...原创 2019-06-11 20:43:31 · 3331 阅读 · 0 评论 -
MapReduce详解
1.基本介绍 1.1 MapReduce简介 MapReduce是一种编程模型,也就是说它实际上是一种概念,而Hadoop的MapReduce的框架是概念的具体实现。 它最早是由Google公司提出的,基于文件的分布式存储(GFS/HDFS)来实现对大规模数据的并行处理,并且Hadoop的作者就是从Google发的论文中受到了启发而写出目前最主流的大数据Hadoop框架。 1.2 基本概念 ...原创 2019-06-28 21:02:27 · 4866 阅读 · 0 评论 -
Hive详解
1.Hive基本介绍 1.1 Hive简介 之前有讲过数据仓库的概念,主要就是按主题划分结构。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能。 通俗来讲就是,我们把需要的数据按照一定的主题拉取到数据仓库中去,数据仓库的底层是Hadoop的HDFS存储,而它的表层会把这种结构化的文件映射成数据库表,然后提供给我们类SQL的查询。 ...原创 2019-07-04 21:29:17 · 428 阅读 · 0 评论 -
Yarn简介
1.Yarn简介 1.1 整体介绍 Yarn是Hadoop2.0的新资源管理系统,它主要的用处就是资源的管理和调度,给上层的应用提供统一的服务 举个例子中,假如我们需要执行一个MapReduce的任务,任务需要使用哪些节点,怎么让它们协调好,这些都是由Yarn去做的,它充当一个中间管理层的角色,这有一张关系图,一目了然。 [外链图片转存失败(img-ofqsREP7-1568022755569...原创 2019-09-09 17:53:15 · 507 阅读 · 0 评论