小初心-CSDN博客

原创 Hbase的架构以及数据模型

一.Hbase架构 1.Client 包含访问HBase的接口并维护cache来加快对HBase的访问 2.Zookeeper 保证任何时候，集群中只有一个活跃master 存贮所有Region的寻址入口。实时监控Region server的上线和下线信息。并实时通知Master 存储元数据 3.Master 为Region server分配region 负责Region server的负载均衡...

2019-04-19 08:49:23 318

原创 HBase性能优化

HBase性能优化方法总结（一）：表的设计表的设计 1.1 Pre-Creating Regions 默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分...

2019-04-18 08:57:16 379

原创 yarn的作用以及执行流程

一.什么是yarn YARN 是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager（RM）、 NodeManager（NM）、ApplicationMaster（AM）。 ResourceManager 负责所有资源的监控、分配和管理； ApplicationMaster 负责每一个具体应用程序的调度和协调； NodeManager 负责每一个节点的维护。对于所有的 ...

2019-04-17 08:39:04 10415 1

转载 java中JVM内存由哪些部分组成，以及功能划分

Java虚拟机内存的五大区域 Java的运行离不开Java虚拟机的支持，今天我就跟大家探讨一下Java虚拟机的一些基础知识。 JVM内存区域分为五个部分，分别是堆，方法区，虚拟机栈，本地方法栈，程序计数器。 JVM内存区域堆。堆是Java对象的存储区域，任何用new字段分配的Java对象实例和数组，都被分配在堆上，Java堆可使用-Xms -Xmx进行内存控制，值得一提的是从JDK1.7...

2019-04-16 08:43:35 2798

原创 MAPREDUCE相关知识点总结

一.mapreduce的特点可以让你的应用在集群中可靠的容错的并行处理TB级别的数据二.分布式计算框架三.mapreduce流程图四.mapreduce的工作流程 1、输入文件分片，每一片都由一个MapTask来处理 2、Map输出的中间结果会先放在内存缓冲区中，这个缓冲区的大小默认是100M，当缓冲区中的内容达到80%时（80M）会将缓冲区的内容写到磁盘上。也就是说，一个map会输出...

2019-04-15 08:49:17 893

原创对HDFS的读流程和写流程的理解

一.HDFS写文件流程图二.HDFS写文件流程（1）调用客户端的对象DISTRIBUTEDFILESYSTEM（）的CREATE方法；（2）DISTRIBUTEDFILESYSTEM会发起对NAMENODE的一个RPC连接，请求创建一个文件，。NAMENODE会执行各种各样的检查，确保要创建的文件不存在，并且客户端有创建文件的权限。如果检查通过，NAMENODE会创建一个文件（在EDITS...

2019-04-11 17:14:47 312

原创 HDFS架构和HA集群的简单理解

一.简述HDFS架构 HDFS是Hadoop分布式文件系统, 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode. HDFS架构图二.HDFS架构中的角色 1.HDFS Client：客户端 a.文件切分文件上传 HDFS 的时候，Client 将文件切分成一个一个...

2019-04-10 18:28:40 1017 2

xiaoruoxian的博客