基础知识
1 TB(太字节)= 1024 GB
1 PB(拍字节)= 1024 TB
大数据核心框架Hadoop
Hadoop 作为大数据技术生态的核心框架,主要解决了海量数据(TB/PB 级)的存储、处理和分析难题,尤其是在传统数据库(如 MySQL)和单机计算无法应对的场景下,提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点:
- 海量数据的存储问题
传统痛点:单机存储容量有限(如单服务器硬盘通常在 TB 级),面对 PB 级数据(如每天产生的用户日志、交易记录),无法通过简单增加硬盘容量解决,且单机存储存在单点故障风险。
Hadoop 的解决方式:通过 HDFS(分布式文件系统) 实现数据分布式存储 —— 将大文件拆分成多个块(默认 128MB),分散存储在集群的多台服务器上,同时每块数据保留多个副本(默认 3 份),既解决了容量问题,又通过副本机制保证了数据可靠性(某台服务器故障,数据不丢失)。 - 海量数据的计算问题
传统痛点:单机计算能力有限,面对 PB 级数据的分析(如统计用户行为、挖掘消费习惯),可能需要数天甚至数周,且复杂计算(如多表关联、聚合分析)容易因内存不足崩溃。
Hadoop 的解决方式:通过 MapReduce(分布式计算框架) 实现 “分而治之”—— 将计算任务拆分成多个子任务,分配到集群的多台服务器上并行处理,最后汇总结果。例如,统计全国用户的消费总额,Map 阶段可让每台服务器计算一个地区的总额,Reduce 阶段再汇总所有地区结果,大幅缩短计算时间。 - 低成本处理数据的问题
传统痛点:传统企业级存储和计算设备(如小型机、高端服务器)成本极高,对于需要处理海量数据的公司(如互联网企业、电商平台),硬件投入难以承受。
Hadoop 的解决方式:支持 x86 架构的普通服务器集群(无需高端硬件),通过软件层面的分布式技术实现高可用和高性能,硬件成本仅为传统方案的 1/10~1/5,让中小企业也能负担海量数据处理。 - 非结构化 / 半结构化数据的处理问题
传统痛点:传统数据库(关系型数据库)擅长处理结构化数据(如表格数据),但对非结构化数据(如图片、视频、日志文件)、半结构化数据(如 JSON、XML)的处理能力弱,难以高效查询和分析。
Hadoop 的解决方式:HDFS 可直接存储任意格式的非结构化数据,MapReduce 支持自定义数据解析逻辑,结合生态中的 Hive(数据仓库工具)、Spark(快速计算引擎)等,可实现对日志、用户行为等非结构化数据的高效分析(如通过 Hive 将非结构化日志转化为 “类表格” 结构进行 SQL 查询)。
简言之,Hadoop 的核心价值是:让企业能用低成本、高可靠的方式,高效处理海量、多样的数据,为数据分析、业务决策提供支撑。例如,电商平台用 Hadoop 分析用户浏览日志以优化推荐系统,物流公司用它处理海量物流数据以优化配送路径等。