- 博客(7)
- 收藏
- 关注
原创 Hbase的架构以及数据模型
一.Hbase架构 1.Client 包含访问HBase的接口并维护cache来加快对HBase的访问 2.Zookeeper 保证任何时候,集群中只有一个活跃master 存贮所有Region的寻址入口。 实时监控Region server的上线和下线信息。并实时通知Master 存储元数据 3.Master 为Region server分配region 负责Region server的负载均衡...
2019-04-19 08:49:23
318
原创 HBase性能优化
HBase性能优化方法总结(一):表的设计 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分...
2019-04-18 08:57:16
379
原创 yarn的作用以及执行流程
一.什么是yarn YARN 是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、 NodeManager(NM)、ApplicationMaster(AM)。 ResourceManager 负责所有资源的监控、分配和管理; ApplicationMaster 负责每一个具体应用程序的调度和协调; NodeManager 负责每一个节点的维护。 对于所有的 ...
2019-04-17 08:39:04
10415
1
转载 java中JVM内存由哪些部分组成,以及功能划分
Java虚拟机内存的五大区域 Java的运行离不开Java虚拟机的支持,今天我就跟大家探讨一下Java虚拟机的一些基础知识。 JVM内存区域分为五个部分,分别是堆,方法区,虚拟机栈,本地方法栈,程序计数器。 JVM内存区域 堆。 堆是Java对象的存储区域,任何用new字段分配的Java对象实例和数组,都被分配在堆上,Java堆可使用-Xms -Xmx进行内存控制,值得一提的是从JDK1.7...
2019-04-16 08:43:35
2798
原创 MAPREDUCE相关知识点总结
一.mapreduce的特点 可以让你的应用在集群中可靠的容错的并行处理TB级别的数据 二.分布式计算框架 三.mapreduce流程图 四.mapreduce的工作流程 1、输入文件分片,每一片都由一个MapTask来处理 2、Map输出的中间结果会先放在内存缓冲区中,这个缓冲区的大小默认是100M,当缓冲区中的内容达到80%时(80M)会将缓冲区的内容写到磁盘上。也就是说,一个map会输出...
2019-04-15 08:49:17
893
原创 对HDFS的读流程和写流程的理解
一.HDFS写文件流程图 二.HDFS写文件流程 (1)调用客户端的对象DISTRIBUTEDFILESYSTEM()的CREATE方法; (2)DISTRIBUTEDFILESYSTEM会发起对NAMENODE的一个RPC连接,请求创建一个文件,。NAMENODE会执行各种各样的检查,确保要创建的文件不存在,并且客户端有创建文件的权限。如果检查通过,NAMENODE会创建一个文件(在EDITS...
2019-04-11 17:14:47
312
原创 HDFS架构和HA集群的简单理解
一.简述HDFS架构 HDFS是Hadoop分布式文件系统, 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode. HDFS架构图 二.HDFS架构中的角色 1.HDFS Client:客户端 a.文件切分 文件上传 HDFS 的时候,Client 将文件切分成 一个一个...
2019-04-10 18:28:40
1017
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人