
hadoop
文章平均质量分 90
sunyang098
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hdfs上传文件的源码分析
之前上传下载hdfs文件都是使用的IOUtils.copyBytes(...),不过也看见过别的方式FileSystem.copyFromLocalFile(boolean delSrc, boolean overwrite, Path[] srcs, Path dst)等通过FileSystem操作文件的所以就追踪了一下FileSystem.copyFromLocalFile的执行过程。原创 2015-05-22 11:18:13 · 1431 阅读 · 0 评论 -
cdh集群节点系统文件损坏,重装系统恢复Hdfs数据
由于意外,集群中的一个节点系统坏了,重装系统后,把该节点添加集群中,恢复hdfs数据。思路:主要问题是把hdfs的数据恢复,由于hdfs的机制very good,只要把节点从集群中删掉,再添加进集群中,配置hdfs对应目录就好。背景:安装的cdh5.8,使用cm界面进行管理流程:1.从集群中删除节点,删除的时候,勾选解除授权。2.从主机管理中删除节点3.原创 2017-08-17 13:45:11 · 4116 阅读 · 0 评论 -
Hadoop常见错误及解决办法
1,错误一:java.io.IOException: Incompatible clusterIDs 时常出现在namenode重新格式化之后2014-04-29 14:32:53,877 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed forblock pool Block pool原创 2015-11-30 18:11:59 · 5422 阅读 · 0 评论 -
动态代理
在hadoop中,DataNode和NameNode之间的控制信息的交流是通过RPC机制完成的,采用的是动态代理和Java NIO的方式。DataNode端是通过获得NameNode的代理,通过该代理和NameNode进行通信的,为了更好的分析hadoop的RPC机制先分析一下动态代理是怎么实现。下面就是动态代理的最最简单的代码实现。代码:import java.lang.refl原创 2016-04-20 12:21:31 · 650 阅读 · 0 评论 -
使用QJM构建HDFS HA架构(2.2+)
本文主要介绍HDFS HA特性,以及如何使用QJM(Quorum Journal Manager)特性实现HDFS HA。 一、背景 HDFS集群中只有一个Namenode,这就会引入单点问题;即如果Namenode故障,那么这个集群将不可用,直到Namenode重启或者其他Namenode接入。 有两种方式会影响集群的整体可用性: 1、意外的突发事件,比如物转载 2016-05-04 10:55:40 · 677 阅读 · 0 评论 -
Hadoop提交Job Client端源码分析
在之前分析了hadoop执行jar的流程分析(博客链接http://blog.csdn.net/a822631129/article/details/50310903),分析到了执行用户写的mapreduce程序,本文分析mapreduce程序中hadoop client端是如何提交job的。主要涉及的五个java类文件:hadoop-mapreduce-client-core下的包org原创 2015-12-17 15:03:17 · 2735 阅读 · 0 评论 -
hadoop执行jar流程分析
项目要结束了,最近在整理项目的相关文档,之前项目中在用hadoop jar **.jar提交作业时,设置了些公共依赖jar包到CLASSPATH中,这样算子在打包时就不需要把很多jar包再打进去离开 。在hadoop-env.sh中和mapreduce.application.classpath、yarn.application.classpath将jar都设置进去了,这样在本地执行hadoo原创 2015-12-15 09:49:38 · 6348 阅读 · 0 评论 -
Hadoop的hadoop-config.sh脚本详解
先简要说明下我的读该脚本的环境,集群是CDH5.3,在研究命令行中hadoop -jar ***.jar命令的相关脚本时,在hadoop文件中追到了hadoop-config.sh这个文件,所以下边的注解添加了我当前情况的处理。this="${BASH_SOURCE-$0}" #显示本脚本文件全路径common_bin=$(cd -P -- "$(dirname -- "$this原创 2015-11-25 16:27:49 · 8421 阅读 · 1 评论 -
YARN/MRv2 MRAppMaster深入剖析—推测执行机制
1. 背景推测执行(Speculative Execution)是指在分布式集群环境下,因为程序BUG,负载不均衡或者资源分布不均等原因,造成同一个job的多个task运行速度不一致,有的task运行速度明显慢于其他task(比如:一个job的某个task进度只有10%,而其他所有task已经运行完毕),则这些task拖慢了作业的整体执行进度,为了避免这种情况发生,Hadoop会为该tas转载 2015-09-23 18:06:27 · 1039 阅读 · 0 评论 -
hadoop web 端口安全认证
Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。1、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。 hadoop.http.filter.initializers org.apache.hadoop.security.AuthenticationFilt原创 2015-09-21 17:58:05 · 4998 阅读 · 1 评论 -
hdfs rack机架感知配置
大型Hadoop集群以机架的形式来组织的,同一个机架上不同节点间的网络状况比不同机架之间更为理想,默认情况下,hadoop的机架感知是没有被启用的。所有的机器Hadoop都默认在同一个默认的 机架下,以名为”/default-rack”,这种情况下,任何一台datanode机器,不管物理上是否属于同一个机架,都会被认为是在同一个机架下。启动hadoop机架感知只需要在cor原创 2015-09-21 16:35:38 · 4899 阅读 · 0 评论 -
Hdfs存储负载均衡
环境:cdh5.8生产环境中,随着数据量的增长,集群进行了扩容,新增节点数据较少。平衡配置还是比较合理的,但是好像一直没有按照配置来,现在是一个1.8的盘,2个3.6的盘。现在1.8使用满了,3.6的使用2.5。在配置界面搜索“平衡”重新平衡阈值 :2重新平衡策略 Balancer Default Group DataNodeBl原创 2017-07-17 13:55:45 · 2438 阅读 · 0 评论