
spark
文章平均质量分 85
个人博客主页:wyn-365.club
Coding路人王
V:CaptainWang365
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
温习大数据框架阿里Flink面试题
1、Flink如何保证精确一次性消费Flink 保证精确一次性消费主要依赖于两种Flink机制1、Checkpoint机制2、二阶段提交机制Checkpoint机制 主要是当Flink开启Checkpoint的时候,会往Source端插入一条barrir,然后这个barrir随着数据流向一直流动,当流入到一个算子的时候,这个算子就开始制作checkpoint,制作的是从barrir来到之前的时候当前算子的状态,将状态写入状态后端当中。然后将barrir往下流动,当流动到keyby 或者sh...原创 2021-11-14 15:35:59 · 460 阅读 · 0 评论 -
温习大数据框架Spark面试题
一、Spark1、你觉得spark 可以完全替代hadoop 么?Spark 会替代 MR,Spark 存储依赖 HDFS,资源调度依赖 YARN,集群管理依赖 Zookeeper。2、Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。不同 Partition 之间不能保证顺序。但是绝大多数原创 2021-11-14 11:08:32 · 937 阅读 · 0 评论 -
Flink与Spark的区别
三、Flink与Spark的区别3.1 设计理念1、Spark的技术理念是使用微批来模拟流的计算,基于Micro-batch,数据流以时间为单位被切分为一个个批次,通过分布式数据集RDD进行批量处理,是一种伪实时。2、Flink是基于事件驱动的,是面向流的处理框架, Flink基于每个事件一行一行地流式处理,是真正的流式计算. 另外他也可以基于流来模拟批进行计算实现批处理。3.2 架构方面1、Spark在运行时的主要角色包括:Master、Worker、Driver、Executor。2、Fli原创 2021-11-14 11:05:28 · 9140 阅读 · 0 评论 -
Flume 读取本地数据输出到 HDFS/Kafka
一、介绍Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序。1.9.0版是Flume的第11版,是Apache顶级项目。Flume 1.9.0是稳定的,可立即投入生产的软件,并且与Flume 1.x代码行的早期版本向后兼容。此版本进行了几个月的积极开发:自1.8.0版以来,已提交了约70个补丁,代表许原创 2020-10-24 09:32:01 · 942 阅读 · 0 评论 -
【Spark 3.0-JavaAPI-pom】体验JavaRDD函数封装变化
一、pom <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <scala.version>2.12.10</scala.version> <spark.version>3..原创 2020-10-05 10:42:51 · 686 阅读 · 0 评论 -
【Spark3.0.0-体验】温习源码解析-->体验安装测试
一、Spark3.0.01.1 注意事项1.注意事项:spark对应hadoop的版本只有两种,一种2.7以上,一种3.2以上版本2.spark3.0.0使用Scala2.12编译的3.spark3.0.0下载地址:https://archive.apache.org/dist/spark/spark-3.0.0/1.2 安装节点信息部署二、Spark3.0.0-StandAlone2.1 解压安装tar -zxvf spark-3.0.0-bin-hadoop3.2 -C /roo原创 2020-10-03 16:06:32 · 265 阅读 · 0 评论