
Hadoop学习指南
文章平均质量分 97
在当今大数据时代,处理海量数据成为了一项关键任务。Hadoop作为一种开源的分布式计算框架,为大规模数据处理和存储提供了强大的解决方案。本专栏将从最基础介绍Hadoop,让我们一同踏上学习Hadoop的旅程。
老虎也淘气
阿里云专家博主,Python数据分析优质创作者,华为云享专家
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)
压缩的优点:以减少磁盘IO、减少磁盘存储空间。压缩的缺点:增加CPU开销。原创 2023-08-18 16:51:40 · 1644 阅读 · 0 评论 -
Hadoop学习:深入解析MapReduce的大数据魔力(三)
(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat 的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(3)CombineTextInputFormat 可以把多个小文件合并成一个切片处理,提高处理效率。原创 2023-08-18 16:40:50 · 730 阅读 · 0 评论 -
Hadoop学习:深入解析MapReduce的大数据魔力(二)
1)需求过滤输入的log日志,包含atguigu的网站输出到e:/atguigu.log,不包含atguigu的网站输出到e:/other.log。(1)输入数据(2)期望输出数据2)需求分析3)案例实操(1)编写LogMapper类// 不做任何处理 , 直接写出一行log数据} }(2)编写LogReducer类// 防止有相同的数据 , 迭代写出 for(NullWritable value : values) {} } }原创 2023-08-06 09:44:00 · 326 阅读 · 0 评论 -
Hadoop学习:深入解析MapReduce的大数据魔力(一)
在大数据时代,高效地处理海量数据成为了各行各业的迫切需求。Hadoop作为一种重要的大数据处理框架,其核心概念之一就是MapReduce。今天开始将深入了解MapReduce,探索其在大数据处理中的重要作用。MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2023-08-05 20:30:54 · 338 阅读 · 1 评论 -
Hadoop学习指南:探索大数据时代的重要组成——HDFS(下)
但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,合成元数据。原创 2023-08-05 11:43:10 · 310 阅读 · 0 评论 -
Hadoop学习指南:探索大数据时代的重要组成——HDFS(上)
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。原创 2023-08-01 08:24:39 · 278 阅读 · 0 评论 -
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(下)
接着上篇,我们继续学习Hadoop运行模式。原创 2023-08-01 07:57:29 · 423 阅读 · 0 评论 -
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
今天我们具体来介绍一下Hadoop的运行模式具体内容移步正文。原创 2023-07-31 13:42:55 · 360 阅读 · 0 评论 -
Hadoop学习指南:探索大数据时代的重要组成——运行环境搭建
Hadoop是大数据处理的重要工具,搭建Hadoop的运行环境是学习和应用Hadoop的第一步。通过安装JDK和配置Hadoop,我们可以轻松搭建一个强大的分布式计算平台,实现大规模数据处理和存储。通过学习Hadoop的搭建和配置,我们能够深入了解Hadoop的运行原理和机制。在后续的学习和实践中,我们将探索更多Hadoop的功能和应用,为大数据处理和分析提供更加全面和高效的解决方案。原创 2023-07-31 08:02:16 · 388 阅读 · 0 评论 -
Hadoop学习指南:探索大数据时代的重要组成——Hadoop概述
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。原创 2023-07-30 17:32:01 · 1304 阅读 · 0 评论