TTT0505-CSDN博客

原创 Hadoop习题练习

1.Hadoop将作业分成若干个task来执行其中包括 MapTask 和 ReduceTask 2.MapReduce有哪些特点（）。A.易于编程B.良好的扩展性C.高容错性D.能对海量数据进行实时在线处理离线处理 3.Hadoop的关键优势之一是它的可靠性。当某个计算元素或存储单元发生故障时，会发生什么情况？A. 数据会丢失B. 任务会被重新分配C. 系统会完全崩溃D. 没有任何影响 4.以下哪些论文是Google

2025-07-01 22:36:54 814

原创 Hadoop习题

1.Hadoop将作业分成若干个task来执行其中包括 MapTask 和 ReduceTask2.MapReduce有哪些特点（）。A.易于编程B.良好的扩展性C.高容错性D.能对海量数据进行实时在线处理（离线处理）ABC3.Hadoop的关键优势之一是它的可靠性。当某个计算元素或存储单元发生故障时，会发生什么情况？A. 数据会丢失B. 任务会被重新分配C. 系统会完全崩溃D. 没有任何影响B4.以下哪些论文是Google发表的？АВС。

2025-07-01 22:36:41 610

原创 Yarn 知识点

Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn：是一种资源调配者，具有通用性Yarn 是一种通用资源调度框架，不仅仅支持MapReduce查看 Yarn 客户端的端口号是8088。

2025-06-16 12:18:22 975

原创 ❗❗❗MapReduce

1、使用场景为了实现控制最终文件的输出路径和输出格式，可以自定义 OutputFormatEg. 要在一个 MapReduce 程序中根据数据的不同输出两类结果到不同目录，这类灵活的输出需求可以通过自定义 OutputFormat 来实现2、自定义 OutputFormat 步骤（1）自定义一个类继承 FileOutputFormat（2）改写 RecorWriter，具体改写输出路径的方法 write()

2025-06-16 12:17:56 1010

原创深入理解Hadoop HDFS

HDFS（Hadoop Distributed File System）是一个文件系统，用于存储文件，通过目标树来定位文件；其次，他是分布式的（多台电脑，多个服务端），由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景；适用一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合做网盘应用。

2025-06-16 12:17:47 574

原创实验一：统计字符个数

HDFS NameNode内部通常端口HDFS NameNode对用户的查询端口9870Yarn查看任务进行情况的端口8088历史服务器查询端口19888。

2025-06-16 12:17:35 615

原创面试重点！

当 Hadoop 启动时，会首先加载。core-site.xml 的优先级。等自定义配置文件，后者可以覆盖。中的配置信息，然后再加载。

2025-06-16 12:17:23 179

原创实验错误点

出现上面的问题是因为解压未成功，删去了原来未删除成功的tar包。

2025-06-16 12:16:59 548

原创 Java笔记

类提供了sort()方法，该方法可以对数组进行排序。如果要实现降序排列，可以使用Comparator接口来自定义比较逻辑。// 使用Arrays.sort()结合自定义比较器进行降序排列@Override});// 打印排序后的数组注释##compare方法的作用compare方法接受两个Integer类型的参数a和b，返回一个整数值来表示它们的比较结果。如果返回值小于 0，表示a小于b。如果返回值等于 0，表示a等于b。如果返回值大于 0，表示a大于b。实现降序排序。

2025-06-16 12:16:37 737

原创 hadoop配置文件，参数的优先级

参数优先级排序：（1）客户端代码中设置的值（2）ClassPath 下的用户自定义的配置文件（project下的配置文件，例如/usr/local/hadoop/etc/hadoop/hdfs-site.xml）（3）服务器的自定义配置文件（XXX-site.xml 路径 /usr/local/hadoop/etc/hadoop）（4）服务器的默认配置（XXX-default.xml）

2025-06-16 12:16:11 403

原创分布式计算课程笔记

Google思想三：BigTable(大表)RowKey相当于MySQL的主键，不能为空，可以重复相同的RowKey是一行记录BigTable的架构：表中的行用分区管理。每个分区叫“Tablet”Tablet Server 存储多个Tablet思想：把所有的数据存入一张表，通过牺牲空间，来换取时间，违背关系型数据库范式的要求问题：引起数据的冗杂优点：提高性能，面向列。

2025-06-16 12:15:53 870

原创大文件测试

切分成2个模块，并且每个块的名字不一样。2）在slave节点上同上。1）在master节点上。文件过大，切分成小块。

2025-06-16 12:15:26 423

原创 HDFS 知识点

（1）Secondary NameNode 询问 NameNode 是否需要 CheckPoint（需不需要合并）。Hdfs写入数据的过程中，NameNode 会选择距离待上传数据最近距离的DataNode 接收数据。（5）Secondary NameNode 加载编辑日志和镜像文件到内存，并合并。（4）将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。（3）NameNode 记录操作日志，更新滚动日志。（4）NameNode 在内存中对元数据进行增删改。内存：计算快、可靠性弱；

2025-05-12 11:32:22 1040

原创 HDFS调用API

slave1启动HDFS调用API：用一台机器管理所有集群shell 脚本是在集群里面操作 HDFSIDEA 是在另一台机器PC上操作整个集群。

2025-04-21 12:02:07 866

原创 Hadoop实验环境搭建

实验使用的Docker镜像保存在文件中，执行如下命令加载该镜像:执行如下4条命令，启动4个名称分别为master、slave1、slave2、slave3的docker容器用于实验：执行结果如下:以salve1为例：在终端使用如下命令进入容器中：将命令中的替换为对应的容器名称即可，比如进入master容器可以使用命令:执行结果如下:特别注意：如果再次进入桌面实验环境后，发现容器未启动（使用下面命令查看）docker ps 是一个 Docker 命令，用于列出当前正在运行的容器。它会显示容器的基本信息，例如容

2025-03-11 22:28:11 891