大数据入门简介(一)了解大数据

这篇博客介绍了大数据的基本概念,包括三无、俩海的特性,以及四V(Volume、Velocity、Variety、Value)和固有特性。接着详细讲解了Hadoop的起源、版本、优势以及在大数据处理中的作用,强调了其高扩展性、高可靠性和低成本等优点,并与RDBMS数据库进行了对比。最后,概述了Hadoop的主要组件HDFS和MapReduce。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据入门简介(一)

首先我们先想想为什么会大数据,或者说它能干什么?

与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗。下面我们就围绕这个大好好谈谈这个大数据。

一、概念(三无、俩海)

1、大数据是指无法通过常规软件等工具对数据内容进行抓取、管狸和处理的数据集合(三无)。

2、大数据主要解决(俩海):海量的数据存储和海量的数据计算问题。

二、特性(四V俩固)

四大特性(4V):

​ Volume:大数据量。大多是过去俩年产生的数据

​ Velocity:速度快。数据增长速度快,时效性比较高

​ Variety:多样化。数据种类和数据来源多样化。结构化数据-半结构化数据-非结构化数据。

​ Value:价值密度低。需要深入挖掘数据信息。

固有特性:

​ 时效性

​ 不可变性

三、Hadoop

1、介绍

Hadoop是一个开源的分布式系统架构。

我们可以看看他的发展及版本。

(1)、Hadoop起源于搜索引擎Apache Nutch

​ 创始人:Doug Cutting

​ 2004年:最初版本

​ 2008年:成为Apache顶级项目

(2)、Hadoop发行的版本

​ 社区版:Apache Hadoop版本。开源,免费,你懂的,国内大多数公司都在用。

​ Cloudera发行版:CDH。这个现在好像需要money了,不过适合小公司使用,兼容性高。

​ Hortonworks发行版:HDP。这个就不多介绍了,感兴趣的可以查查。

(3)、那为什么我们要使用Hadoop呢?(三高+三优)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值