大厂真题之唯品会-Java大数据开发工程师.pdf资源-CSDN下载

版权申诉

165 浏览量 2021-01-27 17:40:49 上传评论收藏 418KB PDF 举报

【知识点详解】 1. Kafka 消息结构 Kafka 的 Message 包含两部分：header 和 body。header 部分由一个字节的 magic（文件格式标识）和四个字节的 CRC32（校验和，用于检测 body 的完整性）。如果 magic 值为 1，那么还包含一个 attributes 字节，用来存储消息的属性信息，如是否压缩、压缩格式等。body 是实际的消息体，可以包含 key/value 对等具体数据。 2. 查看 Kafka Offset 在 Kafka 0.9 版本及以上，可以使用最新版本的 Consumer 客户端来获取 offset。通过调用 `consumer.seekToEnd()` 获取所有分区的最新 offset，而 `consumer.position()` 则返回当前消费者组在某个分区的偏移量。 3. Hadoop Shuffle 过程 - Map 端 Shuffle：Map 任务处理输入数据生成中间结果，中间结果先存于内存缓冲区，达到阈值时，数据溢出到磁盘（spill）。在 spill 前进行排序，先按 partition 排序，再在每个 partition 内按 key 排序。如果配置了 combiner，会在写磁盘前先进行一次局部聚合。多个 spill 文件会被归并成一个文件。 - Reduce 端 Shuffle：Reducer 需要复制与自己 partition 对应的数据。数据拷贝完成后，进行排序（merge），将来自各个 Map 的有序数据合并。Reduce 函数处理排序后的数据，生成最终结果并写入 HDFS。 4. Spark 集群运算模式 - Standalone：Master/Slave 结构，可能存在单点故障，可选 ZooKeeper 实现高可用。 - On YARN：Spark 运行在 YARN 上，YARN 负责资源管理，Spark 负责任务调度。 - On Mesos：Spark 与 Mesos 协同，Mesos 管理资源，Spark 调度任务。 - On Cloud（如 AWS EC2）：支持云环境，易于访问分布式存储系统如 HDFS 和 S3。 5. HDFS 读写数据流程 - 读取：客户端向 Namenode 查询文件元数据，获取文件块所在的 DataNode。然后，客户端并行从多个 DataNode 下载文件块，进行数据重组。 - 写入：客户端将文件切分成多个块，分别发送到多个 DataNode。Namenode 记录文件元数据，确保数据冗余和副本策略。以上知识点涵盖了 Kafka 消息结构、Kafka 消费者获取 offset 的方式、Hadoop MapReduce 中的 Shuffle 流程、Spark 集群部署模式以及 HDFS 的读写操作。这些内容是 Java 大数据开发工程师需要掌握的基础知识，尤其在面试或工作中处理大规模数据处理和流处理场景时尤为重要。

资源推荐

资源详情

资源评论