勇敢先生-CSDN博客

原创 Namenode数据不断积累造成的问题

1、启动时间变长。NameNode的启动过程可以分成FsImage数据加载、editlogs回放、Checkpoint、DataNode的BlockReport几个阶段。数据规模较小时，启动时间可以控制在~10min以内，当元数据规模达到5亿（Namespace中INode数超过2亿，Block数接近3亿），FsImage文件大小将接近到20GB，加载FsImage数据就需要~14min，Chec...

2018-07-03 20:15:40 1534

原创 Linux Crontab 定时任务守卫Java进程

1. 编辑用户的定时任务(1) crontab -e | 若是指定用户则是 crontab -u root -e编辑内容：* * * * * sh /cloud/taks/monitor-task-schedule.sh 上述即是定时任务：每分钟执行依次task.sh 脚本备注：脚本路径必需为绝对路径2. 编写shell 脚本具体脚本查看 monitor-task-...

2018-06-09 10:22:19 601

原创 SparkSQL2.x 中的DataFrame和Dataset创建与使用

SparkSQL 的概念 Spark SQL 是一个用来处理结构化数据的 spark 组件，也可被视为一个分布式的 SQL 查询引擎。与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口。在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset AP...

2018-05-14 19:27:36 3975

原创 Spark自定义排序问题（scala）

我们在使用的spark 的在做数据统计的时，实现的数据的排序的过程中，使用的在RDD提供的的算子的，往往的不能我们的开发的条件，需要我们自行的定义的排序的规则。在这里暂时提供三种的三种的自动的排序使用的默认的sortBy 的排序规则直接利用元组来封装排序的条件package org.yonggganimport org.apache.spark.rdd.RDDimport org.apach...

2018-05-09 22:56:20 1057

原创 Spark集群搭建（standalone集群）

简单介绍Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框...

2018-04-29 23:47:27 3023

原创 Scala SAM的使用方法

SAMSAM 的使用主要是为了匿名接口实现的提供了一套函数式的形参传入代码实例traitpackage org.yonggan.day04trait TraitDemo { def sayHello(msg: String)}SAM 实现对比bject App { def main(args: Array[String]): Unit = { /** ...

2018-04-26 11:19:00 1019

原创 Scala的Trait链式处理（二）

简单介绍Trait调用链：在Scala中，支持让类继承多个Trait，依次调用多个Trait中的同一个方法，只要让多个Trait中的同一个方法中，在最后都执行super方法。类似设计模式--责任链模式注意：在类中调用多个Trait中都有的方法时，首先会从最右边的Trait的方法开始执行，形成一个链式处理调用。作用：可以解决多类共同执行的不同的业务业务逻辑的方法冲突问题公共的父Traitpa...

2018-04-24 22:36:42 816

原创 Scala中trait用法详解(一)

入门背景在Scala中，Trait是一种特殊概念。首先，Trait可以被作为接口来使用，此时Trait与Java的接口比较类似。同时在Trait可以定义抽象方法，其与抽象类中的抽象方法一样，不给出方法的具体实现。注意：类使用extends继承Trait，，在Scala中，无论继承类还是继承Trait都是用extends关键字。关于的trait的基本概念就不再阐述了。Trait用法基础知...

2018-04-24 22:20:40 13128

原创 HA-高可用的HDFS搭建（hdfs+zookeeper）（一）

早期的Hadoop1.x版本，NN是HDFS集群的单点故障点，每一个集群只有一个NN,如果这个机器或进程不可用，整个集群就无法使用。为了解决这个问题在Hadoop2.x中借助于中间特定的中间渠道解决单点故障点问题，官方文档中提供两种解决方法： NFS和QJMNFS:采用的是网络共享文件模式QJM：Quorum Journal Manager 是hdfs用来共享Action NameNode与St...

2018-04-10 19:11:00 3273

原创 Hadoop HDFS 出现 WARN Unable to load native-hadoop library for your platform解决方法

1. 问题：运行hadoop的hdfs的客户端的时候出现警告如下 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2.问题原因：Hdfs在实现IO操作的时候，为了提升IO的性能默认使用C...

2018-04-10 13:00:51 3953