
大数据
文章平均质量分 76
勇敢先生
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop HDFS 出现 WARN Unable to load native-hadoop library for your platform解决方法
1. 问题 :运行hadoop的hdfs的客户端的时候出现警告如下 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2.问题原因:Hdfs在实现IO操作的时候,为了提升IO的性能默认使用C...原创 2018-04-10 13:00:51 · 3953 阅读 · 0 评论 -
HA-高可用的HDFS搭建(hdfs+zookeeper)(一)
早期的Hadoop1.x版本,NN是HDFS集群的单点故障点,每一个集群只有一个NN,如果这个机器或进程不可用,整个集群就无法使用。为了解决这个问题在Hadoop2.x中借助于中间特定的中间渠道解决单点故障点问题,官方文档中提供两种解决方法: NFS和QJMNFS:采用的是网络共享文件模式QJM:Quorum Journal Manager 是hdfs用来共享Action NameNode与St...原创 2018-04-10 19:11:00 · 3273 阅读 · 0 评论 -
Scala中trait用法详解(一)
入门背景在Scala中,Trait是一种特殊概念。 首先,Trait可以被作为接口来使用,此时Trait与Java的接口比较类似。同时在Trait可以定义抽象方法,其与抽象类中的抽象方法一样,不给出方法的具体实现。 注意:类使用extends继承Trait,,在Scala中,无论继承类还是继承Trait都是用extends关键字。关于的trait的基本概念就不再阐述了。Trait用法 基础知...原创 2018-04-24 22:20:40 · 13128 阅读 · 0 评论 -
Scala的Trait链式处理(二)
简单介绍Trait调用链:在Scala中,支持让类继承多个Trait,依次调用多个Trait中的同一个方法,只要让多个Trait中的同一个方法中,在最后都执行super方法。 类似设计模式--责任链模式注意:在类中调用多个Trait中都有的方法时,首先会从最右边的Trait的方法开始执行,形成一个链式处理调用。作用: 可以解决多类共同 执行的不同的业务业务逻辑的方法冲突问题公共的父Traitpa...原创 2018-04-24 22:36:42 · 816 阅读 · 0 评论 -
Spark自定义排序问题(scala)
我们在使用的spark 的在做数据统计的时,实现的数据的排序的过程中,使用的在RDD提供的的算子的,往往的不能我们的开发的条件,需要我们自行的定义的排序的规则。在这里暂时提供三种的三种的自动的排序使用的默认的sortBy 的排序规则直接利用元组来封装排序的条件package org.yonggganimport org.apache.spark.rdd.RDDimport org.apach...原创 2018-05-09 22:56:20 · 1057 阅读 · 0 评论 -
Scala SAM的使用方法
SAMSAM 的使用主要是为了匿名接口实现的 提供了一套 函数式的形参传入代码实例traitpackage org.yonggan.day04trait TraitDemo { def sayHello(msg: String)}SAM 实现对比bject App { def main(args: Array[String]): Unit = { /** ...原创 2018-04-26 11:19:00 · 1019 阅读 · 0 评论 -
SparkSQL2.x 中的DataFrame和Dataset创建与使用
SparkSQL 的概念 Spark SQL 是一个用来处理结构化数据的 spark 组件,也可被视为一个分布式的 SQL 查询引擎。与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口。在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset AP...原创 2018-05-14 19:27:36 · 3977 阅读 · 0 评论 -
Namenode数据不断积累造成的问题
1、启动时间变长。NameNode的启动过程可以分成FsImage数据加载、editlogs回放、Checkpoint、DataNode的BlockReport几个阶段。数据规模较小时,启动时间可以控制在~10min以内,当元数据规模达到5亿(Namespace中INode数超过2亿,Block数接近3亿),FsImage文件大小将接近到20GB,加载FsImage数据就需要~14min,Chec...原创 2018-07-03 20:15:40 · 1535 阅读 · 0 评论