Hive Fetch的原理

最新推荐文章于 2022-05-01 18:55:33 发布

喜欢coding的谢同学

最新推荐文章于 2022-05-01 18:55:33 发布

阅读量602

点赞数

CC 4.0 BY-SA版权

分类专栏： # Hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44112790/article/details/119596423

本文详细介绍了Hive的Fetch功能，旨在避免对于简单查询的低效MapReduce执行。从入口 CliDriver 开始，深入解析读取文件的流程，包括读取切片和行的细节，以及如何保存结果。通过FetchOperator、InputFormatSplit和RecordReader等组件，展示了Hive如何直接读取和处理数据，最后在ListSinkOperator中保存结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

前言
流程
总结

前言

Hive将SQL转为MapReduce执行，但是对于简单的查询，使用MapReduce的效率太低，于是开发了fetch功能来避免MR的执行。
网上有大量的文章介绍了如何使用，却少有介绍其原理的，于是自己debug学习了一下整理成笔记分享出来。

流程

入口

由于我使用的是hive的cli进行debug，所以会先进入CliDriver，关于这个环节更详细的介绍可以参考Hive 源码解析之 Hive 基本框架和执行入口
在这里插入图片描述

读取文件

读取切片

InputFormatSplit
虽然避免了MR计算，读取文件依旧是无法避免的。Hive针对fetch的任务自定义了一类InputFormatSplit

FetchInputFormatSplit在FetchOperator的getNextSplits中被创建出来，这个方法应该是读取文件返回切片构成的数组。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。