MapReduce分析日志---代码流程解读

本文通过MapReduce分析网站访问记录,深入理解Hadoop MapReduce的工作流程。针对原作者代码进行适配更新,并记录遇到的问题及解决方案,便于日后查阅。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

原文链接:http://blog.fens.me/hadoop-mapreduce-log-kpi/

数据类来源:网站访问记录

先上代码:

对原作者的代码进行了部分更改以适应新版本的Hadoop,同时记录下自己的问题和查找答案,方便以后快速回忆

package org.apache.hadoop.examples;

import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.HashSet;
import java.util.Locale;
import java.util.Set;

public class Kpi {//bean,将数据封装,转化为String

	private String remote_add;
	private String remote_user;
	private String time_local;
	private String request;
	private String statues;
	private String body_bytes_sent;
	private String http_referer;
	private String http_user_agent;
	private boolean valid = true;
	
	public String toString(){
		StringBuilder sb = new StringBuilder();
		sb.append("valid:"+this.valid);
		sb.append("\nremote:_addr:"+this.remote_add);
		sb.append("\nremote_user:"+this.remote_user);
		sb.append("\ntime_local:"+this.time_local);
		sb.append("\request:"+this.request);
		sb.append("\nstatues:"+this.statues);
		sb.append("\nbody_statues:"+this.body_bytes_sent);
		sb.append("\nhttp_referer:"+this.http_referer);
		sb.append("\nhttp_user_agent:"+this.http_user_agent);
		return sb.toString();
	}

	public String getRemote_add() {
		return remote_add;
	}

	public void setRemote_add(String remote_add) {
		this.remote_add = remote_add;
	}

	public String getRemote_user() {
		return remote_user;
	}

	public void setRemote_user(String remote_user) {
		this.remote_user = remote_user;
	}

	public String getTime_local() {
		return time_local;
	}

	public void setTime_local(String time_local) {
		this.time_local = time_local;
	}

	public String getRequest() {
		return request;
	}

	public void setRequest(String request) {
		this.request = request;
	}

	public String getStatues() {
		return statues;
	}

	public void setStatues(String statues) {
		this.statues
根据下面生成运行代码、运行结果。以及写出测试结果分析。 在HDFS安装完成后,需要对其进行测试,以确保分布式文件存储系统的功能和性能符合预期。首先,可以通过`hdfs dfsadmin`命令检查NameNode和DataNode的状态,确认所有节点均正常运行。例如,执行以下命令查看HDFS的整体状态: hdfs dfsadmin -report 此命令将返回HDFS的整体存储情况,包括NameNode的地址、DataNode的数量、可用存储空间等关键信息。如果某些DataNode未能正确注册到NameNode,则需要检查网络连通性和相关日志文件,如`/var/log/hadoop-hdfs`目录下的日志。 为了验证文件存储功能,可以尝试向HDFS上传一个测试文件,并检查文件是否正确存储和读取。例如,首先创建一个本地测试文件: echo "This is a Hadoop HDFS test file." > testfile.txt 然后,使用`hdfs dfs -put`命令将其上传到HDFS: hdfs dfs -put testfile.txt /user/hadoop/ 上传成功后,可使用以下命令检查文件是否正确存储在HDFS中: hdfs dfs -ls /user/hadoop/ 若文件已正确存储,则会返回文件的路径、大小和权限信息。接下来,可以使用`hdfs dfs -cat`命令读取文件内容,验证其完整性: hdfs dfs -cat /user/hadoop/testfile.txt 在性能测试方面,可以利用`TestDFSIO`工具来评估HDFS的读写性能。首先,生成测试数据hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -write -nrFiles 10 -fileSize 100MB 该命令会在HDFS中写入10个100MB的文件,以测试写入性能。执行完成后,可运行以下命令进行读取测试: hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-*.jar TestDFSIO -read -nrFiles 10 -fileSize 100MB 测试完成后,可查看HDFS的日志和系统监控数据分析吞吐量、I/O性能以及系统负载情况,以评估Hadoop分布式文件存储系统的性能表现。
03-20
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值