自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Namenode数据不断积累造成的问题

1、启动时间变长。NameNode的启动过程可以分成FsImage数据加载、editlogs回放、Checkpoint、DataNode的BlockReport几个阶段。数据规模较小时,启动时间可以控制在~10min以内,当元数据规模达到5亿(Namespace中INode数超过2亿,Block数接近3亿),FsImage文件大小将接近到20GB,加载FsImage数据就需要~14min,Chec...

2018-07-03 20:15:40 1534

原创 Linux Crontab 定时任务守卫Java进程

1. 编辑用户的定时任务(1)        crontab -e | 若是指定用户 则是  crontab  -u root -e编辑内容:* * * * * sh /cloud/taks/monitor-task-schedule.sh  上述即是定时任务:    每分钟执行依次task.sh 脚本备注:脚本路径必需为绝对路径2. 编写shell 脚本具体脚本查看 monitor-task-...

2018-06-09 10:22:19 601

原创 SparkSQL2.x 中的DataFrame和Dataset创建与使用

 SparkSQL 的概念 Spark SQL 是一个用来处理结构化数据的 spark 组件,也可被视为一个分布式的 SQL 查询引擎。与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口。在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset AP...

2018-05-14 19:27:36 3975

原创 Spark自定义排序问题(scala)

我们在使用的spark 的在做数据统计的时,实现的数据的排序的过程中,使用的在RDD提供的的算子的,往往的不能我们的开发的条件,需要我们自行的定义的排序的规则。在这里暂时提供三种的三种的自动的排序使用的默认的sortBy 的排序规则直接利用元组来封装排序的条件package org.yonggganimport org.apache.spark.rdd.RDDimport org.apach...

2018-05-09 22:56:20 1057

原创 Spark集群搭建(standalone集群)

简单介绍Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框...

2018-04-29 23:47:27 3023

原创 Scala SAM的使用方法

SAMSAM 的使用主要是为了匿名接口实现的 提供了一套 函数式的形参传入代码实例traitpackage org.yonggan.day04trait TraitDemo { def sayHello(msg: String)}SAM 实现对比bject App { def main(args: Array[String]): Unit = { /** ...

2018-04-26 11:19:00 1019

原创 Scala的Trait链式处理(二)

 简单介绍Trait调用链:在Scala中,支持让类继承多个Trait,依次调用多个Trait中的同一个方法,只要让多个Trait中的同一个方法中,在最后都执行super方法。 类似设计模式--责任链模式注意:在类中调用多个Trait中都有的方法时,首先会从最右边的Trait的方法开始执行,形成一个链式处理调用。作用: 可以解决多类共同 执行的不同的业务业务逻辑的方法冲突问题公共的父Traitpa...

2018-04-24 22:36:42 816

原创 Scala中trait用法详解(一)

入门背景在Scala中,Trait是一种特殊概念。    首先,Trait可以被作为接口来使用,此时Trait与Java的接口比较类似。同时在Trait可以定义抽象方法,其与抽象类中的抽象方法一样,不给出方法的具体实现。 注意:类使用extends继承Trait,,在Scala中,无论继承类还是继承Trait都是用extends关键字。关于的trait的基本概念就不再阐述了。Trait用法 基础知...

2018-04-24 22:20:40 13128

原创 HA-高可用的HDFS搭建(hdfs+zookeeper)(一)

早期的Hadoop1.x版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题在Hadoop2.x中借助于中间特定的中间渠道解决单点故障点问题,官方文档中提供两种解决方法: NFS和QJMNFS:采用的是网络共享文件模式QJM:Quorum Journal Manager  是hdfs用来共享Action NameNode与St...

2018-04-10 19:11:00 3273

原创 Hadoop HDFS 出现 WARN Unable to load native-hadoop library for your platform解决方法

1. 问题 :运行hadoop的hdfs的客户端的时候出现警告如下 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2.问题原因:Hdfs在实现IO操作的时候,为了提升IO的性能默认使用C...

2018-04-10 13:00:51 3953

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除