- 博客(10)
- 收藏
- 关注
原创 Namenode数据不断积累造成的问题
1、启动时间变长。NameNode的启动过程可以分成FsImage数据加载、editlogs回放、Checkpoint、DataNode的BlockReport几个阶段。数据规模较小时,启动时间可以控制在~10min以内,当元数据规模达到5亿(Namespace中INode数超过2亿,Block数接近3亿),FsImage文件大小将接近到20GB,加载FsImage数据就需要~14min,Chec...
2018-07-03 20:15:40
1534
原创 Linux Crontab 定时任务守卫Java进程
1. 编辑用户的定时任务(1) crontab -e | 若是指定用户 则是 crontab -u root -e编辑内容:* * * * * sh /cloud/taks/monitor-task-schedule.sh 上述即是定时任务: 每分钟执行依次task.sh 脚本备注:脚本路径必需为绝对路径2. 编写shell 脚本具体脚本查看 monitor-task-...
2018-06-09 10:22:19
601
原创 SparkSQL2.x 中的DataFrame和Dataset创建与使用
SparkSQL 的概念 Spark SQL 是一个用来处理结构化数据的 spark 组件,也可被视为一个分布式的 SQL 查询引擎。与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口。在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset AP...
2018-05-14 19:27:36
3975
原创 Spark自定义排序问题(scala)
我们在使用的spark 的在做数据统计的时,实现的数据的排序的过程中,使用的在RDD提供的的算子的,往往的不能我们的开发的条件,需要我们自行的定义的排序的规则。在这里暂时提供三种的三种的自动的排序使用的默认的sortBy 的排序规则直接利用元组来封装排序的条件package org.yonggganimport org.apache.spark.rdd.RDDimport org.apach...
2018-05-09 22:56:20
1057
原创 Spark集群搭建(standalone集群)
简单介绍Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框...
2018-04-29 23:47:27
3023
原创 Scala SAM的使用方法
SAMSAM 的使用主要是为了匿名接口实现的 提供了一套 函数式的形参传入代码实例traitpackage org.yonggan.day04trait TraitDemo { def sayHello(msg: String)}SAM 实现对比bject App { def main(args: Array[String]): Unit = { /** ...
2018-04-26 11:19:00
1019
原创 Scala的Trait链式处理(二)
简单介绍Trait调用链:在Scala中,支持让类继承多个Trait,依次调用多个Trait中的同一个方法,只要让多个Trait中的同一个方法中,在最后都执行super方法。 类似设计模式--责任链模式注意:在类中调用多个Trait中都有的方法时,首先会从最右边的Trait的方法开始执行,形成一个链式处理调用。作用: 可以解决多类共同 执行的不同的业务业务逻辑的方法冲突问题公共的父Traitpa...
2018-04-24 22:36:42
816
原创 Scala中trait用法详解(一)
入门背景在Scala中,Trait是一种特殊概念。 首先,Trait可以被作为接口来使用,此时Trait与Java的接口比较类似。同时在Trait可以定义抽象方法,其与抽象类中的抽象方法一样,不给出方法的具体实现。 注意:类使用extends继承Trait,,在Scala中,无论继承类还是继承Trait都是用extends关键字。关于的trait的基本概念就不再阐述了。Trait用法 基础知...
2018-04-24 22:20:40
13128
原创 HA-高可用的HDFS搭建(hdfs+zookeeper)(一)
早期的Hadoop1.x版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题在Hadoop2.x中借助于中间特定的中间渠道解决单点故障点问题,官方文档中提供两种解决方法: NFS和QJMNFS:采用的是网络共享文件模式QJM:Quorum Journal Manager 是hdfs用来共享Action NameNode与St...
2018-04-10 19:11:00
3273
原创 Hadoop HDFS 出现 WARN Unable to load native-hadoop library for your platform解决方法
1. 问题 :运行hadoop的hdfs的客户端的时候出现警告如下 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2.问题原因:Hdfs在实现IO操作的时候,为了提升IO的性能默认使用C...
2018-04-10 13:00:51
3953
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人