- 博客(16)
- 收藏
- 关注
原创 Hadoop习题练习
1.Hadoop将作业分成若干个task来执行其中包括 MapTask 和 ReduceTask 2.MapReduce有哪些特点()。A.易于编程B.良好的扩展性C.高容错性D.能对海量数据进行实时在线处理 离线处理 3.Hadoop的关键优势之一是它的可靠性。当某个计算元素或存储单元发生故障时,会发生什么情况?A. 数据会丢失B. 任务会被重新分配C. 系统会完全崩溃D. 没有任何影响 4.以下哪些论文是Google
2025-07-01 22:36:54
814
原创 Hadoop习题
1.Hadoop将作业分成若干个task来执行其中包括 MapTask 和 ReduceTask2.MapReduce有哪些特点()。A.易于编程B.良好的扩展性C.高容错性D.能对海量数据进行实时在线处理(离线处理)ABC3.Hadoop的关键优势之一是它的可靠性。当某个计算元素或存储单元发生故障时,会发生什么情况?A. 数据会丢失B. 任务会被重新分配C. 系统会完全崩溃D. 没有任何影响B4.以下哪些论文是Google发表的?АВС。
2025-07-01 22:36:41
610
原创 Yarn 知识点
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。Yarn:是一种资源调配者,具有通用性Yarn 是一种通用资源调度框架,不仅仅支持MapReduce查看 Yarn 客户端的端口号是8088。
2025-06-16 12:18:22
975
原创 ❗❗❗MapReduce
1、使用场景为了实现控制最终文件的输出路径和输出格式,可以自定义 OutputFormatEg. 要在一个 MapReduce 程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需 求可以通过自定义 OutputFormat 来实现2、自定义 OutputFormat 步骤(1)自定义一个类继承 FileOutputFormat(2)改写 RecorWriter,具体改写输出路径的方法 write()
2025-06-16 12:17:56
1010
原创 深入理解Hadoop HDFS
HDFS(Hadoop Distributed File System)是一个文件系统,用于存储文件,通过目标树来定位文件;其次,他是分布式的(多台电脑,多个服务端),由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景;适用一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合做网盘应用。
2025-06-16 12:17:47
574
原创 实验一:统计字符个数
HDFS NameNode内部通常端口HDFS NameNode对用户的查询端口9870Yarn查看任务进行情况的端口8088历史服务器查询端口19888。
2025-06-16 12:17:35
615
原创 面试重点!
当 Hadoop 启动时,会首先加载。core-site.xml 的优先级。等自定义配置文件,后者可以覆盖。中的配置信息,然后再加载。
2025-06-16 12:17:23
179
原创 Java笔记
类提供了sort()方法,该方法可以对数组进行排序。如果要实现降序排列,可以使用Comparator接口来自定义比较逻辑。// 使用Arrays.sort()结合自定义比较器进行降序排列@Override});// 打印排序后的数组注释##compare方法的作用compare方法接受两个Integer类型的参数a和b,返回一个整数值来表示它们的比较结果。如果返回值小于 0,表示a小于b。如果返回值等于 0,表示a等于b。如果返回值大于 0,表示a大于b。实现降序排序。
2025-06-16 12:16:37
737
原创 hadoop配置文件,参数的优先级
参数优先级排序:(1)客户端代码中设置的值(2)ClassPath 下的用户自定义的配置文件(project下的配置文件,例如/usr/local/hadoop/etc/hadoop/hdfs-site.xml)(3)服务器的自定义配置文件(XXX-site.xml 路径 /usr/local/hadoop/etc/hadoop)(4)服务器的默认配置(XXX-default.xml)
2025-06-16 12:16:11
403
原创 分布式计算课程笔记
Google思想三:BigTable(大表)RowKey相当于MySQL的主键,不能为空,可以重复相同的RowKey是一行记录BigTable的架构:表中的行用分区管理。每个分区叫“Tablet”Tablet Server 存储多个Tablet思想:把所有的数据存入一张表,通过牺牲空间,来换取时间 ,违背关系型数据库范式的要求问题:引起数据的冗杂优点:提高性能,面向列。
2025-06-16 12:15:53
870
原创 HDFS 知识点
(1)Secondary NameNode 询问 NameNode 是否需要 CheckPoint(需不需要合并)。Hdfs写入数据的过程中,NameNode 会选择距离待上传数据最近距离的DataNode 接收数据。(5)Secondary NameNode 加载编辑日志和镜像文件到内存,并合并。(4)将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。(3)NameNode 记录操作日志,更新滚动日志。(4)NameNode 在内存中对元数据进行增删改。内存:计算快、可靠性弱;
2025-05-12 11:32:22
1040
原创 HDFS调用API
slave1启动HDFS调用API:用一台机器管理所有集群shell 脚本 是在集群里面操作 HDFSIDEA 是在另一台机器PC上操作整个集群。
2025-04-21 12:02:07
866
原创 Hadoop实验环境搭建
实验使用的Docker镜像保存在文件中,执行如下命令加载该镜像:执行如下4条命令,启动4个名称分别为master、slave1、slave2、slave3的docker容器用于实验:执行结果如下:以salve1为例:在终端使用如下命令进入容器中:将命令中的替换为对应的容器名称即可,比如进入master容器可以使用命令:执行结果如下:特别注意:如果再次进入桌面实验环境后,发现容器未启动(使用下面命令查看)docker ps 是一个 Docker 命令,用于列出当前正在运行的容器。它会显示容器的基本信息,例如容
2025-03-11 22:28:11
891
原创 配置并启动Hadoop集群
配置集群环境时,需要修改目录下的配置文件,这里仅设置正常启动必须的设置项,包括workers(旧版是slaves)、、以及(3.x需要配置)共6个文件。以下对节点的配置文件进行修改。
2025-03-11 22:27:57
872
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人