给出了这样的定义。“大数
据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海
量、高增长率和多样化的信息资产。
根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件
工具进行捕捉、管理和处理的数据集合。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意
义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产
业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增
值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。
大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在
于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布
式数据库和云存储、虚拟化技术。
[1]
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著
云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的
大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析
时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大
型数据集分析需要像 MapReduce 一样的框架来向数十、数百或甚至数千的电
脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适
用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分
布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是 bit,按顺序给出所有单位:
bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,
它们按照进率 1024(2 的十次方)来计算:
8 bit = 1 Byte
1 KB = 1,024 Bytes
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
2 技术盘点编辑
HadoopMapReduce
思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所
带来的 3 个 V 的挑战。扎根于开源社区,Hadoop