
Spark
文章平均质量分 65
桃花惜春风
高级Elasticsearch工程师,搜索架构工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mac安装Scala
随着spark越来越火,scala也是水涨船高,越来越多的人开始学习scala。官网下载Scala:http://www.scala-lang.org/download/解压tar -xzf scala-2.12.6.tgz配置变量Mac的环境变量是:vi .bash_profileexport SCALA_HOME=/安装路径/scala-2.12.6...原创 2018-09-13 20:53:54 · 2720 阅读 · 0 评论 -
Spark实战(三):SparkStreaming使用checkpoint容错
由于SparkStreaming一般是7*24不间断运行,所以强大的容错性保障是必不可少的。并且在保证容错的基础上,保证精准一次的数据处理同样是我们想要的。checkpointSparkStreaming自带的容错机制主要是通过checkpoint来实现。checkpoint的机制呢主要就是把处理过程中的数据存储在文件系统中(一般是hdfs或S3),当然这里的读和写都是序列化的,这也是ch...原创 2018-10-18 20:08:39 · 1127 阅读 · 0 评论 -
Spark干货(一):spark streaming集成kafka容灾选择和技术分析
本文主要探讨关于spark streaming集成kafka的容错处理和断点续传操作。spark streaming有两种容错机制:spark自带的checkpoint使用Kafka direct自行维护offset关于两种方式的具体实现和优缺点下面会详细介绍,这里是建议使用第二种方式更灵活一些。checkpointcheckpoint是spark streaming自带的一种...原创 2018-09-29 17:36:43 · 2828 阅读 · 0 评论 -
Spark实战(二):Kafka-SparkStreaming-Elasticsearch
本文介绍saprk实时部分----spark-streaming。spark-streaming可以实现实时批处理功能,实际上还是相当于小的批处理,但是是7*24工作,可以近实时但需要维护成本。本文里的用java写的demo,实现功能是将kafka作为spark-streaming的输入源,Elasticsearch作为输出源来实现实时处理架构。还是先上代码maven<depend...原创 2018-09-20 09:47:56 · 5106 阅读 · 3 评论 -
Spark实战(一):spark读取本地文件输出到Elasticsearch
对于spark的典型应用场景为批处理,一般由基本数据源(文件系统如:hdfs)或者高级数据源(flume、kafka)作为spark的数据接入端。输出一样可以是文件系统或数据库等等。本文介绍一个用java写的demo程序,功能是从本地接收数据,经过spark处理之后输出到Elasticsearch。先上代码:maven <dependency> <groupId...原创 2018-09-19 20:27:43 · 4480 阅读 · 0 评论 -
mac本地搭建Spark
博主建议对于初学者本地先搭个spark环境玩玩,搭建非常容易,平时测试一个小demo非常方便。因为服务器一般情况是只有内部网才能进行访问的,有些时候很不方便。后续会介绍如何在生产服务器上搭建不同模式下的Spark集群。安装jdk这个就不详细介绍了,写程序的不会安装jdk那该考虑转行了。网上一搜一大堆。安装scala参考: Mac安装Scala安装Spark ...原创 2018-09-14 15:29:14 · 8910 阅读 · 6 评论 -
Spark报错(一):java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
报错如下:org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 4 times, most recent failure: Lost task 0.3 in stage 0.0 (TID 3, 192.168.7.53, executor 0): java.la...原创 2018-09-13 20:57:57 · 2496 阅读 · 0 评论 -
Spark报错(二):关于Spark-Streaming官方示例wordcount运行异常
关于Spark-Streaming官方示例: https://github.com/apache/spark/tree/master/examples本文采用kafka作为spark输入源 运行时出现以下日志:18/09/12 11:15:28 INFO JobScheduler: Added jobs for time 1536722117000 ms18/09/1...原创 2018-09-13 20:57:14 · 2002 阅读 · 0 评论 -
eclipse安装Scala开发环境
首选要在机器上搭建Scala:参考:安装scala工具打开eclipse 点击”Scala IDE 4.7.x”相对应的”Install”按钮,进行安装。选择你需要的组件 执行安装 安装后重新启动创建Scala项目点击eclipse右上角位置”Open Perspective”图标 选择Scala打开这样就可以...原创 2018-09-13 20:55:32 · 1692 阅读 · 0 评论 -
Spark报错(三):Spark task not serializable
原因分析我们在做spark开发是会遇到这个报错:“org.apache.spark.SparkException: Task not serializable”。字面意思就是task没有被序列化。报这个错的原因就是由于我们在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。常见的操作有map、filter算子中引用的外部变量,但这个变量不能被序列化。其中最普遍的情形是:当...原创 2018-11-23 11:04:35 · 5482 阅读 · 0 评论