cdh6.3.2支持字段血缘展示需要替换jar
需积分: 0 182 浏览量
更新于2023-10-11
收藏 39.79MB ZIP 举报
在IT行业中,数据管理和分析是至关重要的,尤其是在大数据领域。CDH(Cloudera Distribution Including Apache Hadoop)是由Cloudera公司提供的一个全面的大数据处理和分析平台,它包含了多个开源项目的集成,如Hadoop、Hive、Spark等。在这个场景中,我们关注的是CDH 6.3.2版本,特别是与Hive相关的功能——字段血缘展示。
字段血缘是指数据从源头到最终使用的整个过程中,每个阶段如何被处理和变换的记录。在数据治理和合规性检查中,这是一项非常关键的功能,因为它可以帮助用户理解数据的来源、经过哪些处理步骤以及如何影响最终结果。在CDH 6.3.2中,Hive 2.1.1作为主要的数据仓库组件,提供了一个基于Apache Atlas的血缘追踪解决方案。
然而,根据标题和描述,用户在尝试使用Apache Atlas在CDH 6.3.2中展示Hive 2.1.1的字段血缘时遇到了问题。这可能是由于CDH版本与Atlas的兼容性问题,或者Hive本身在血缘追踪方面的实现存在不足。为了解决这个问题,用户需要对Hive进行打补丁操作,这通常涉及到修改源代码以增强或修复特定功能,然后重新编译Hive。
提到的两个替换的jar文件是“hive-exec-2.1.1-cdh6.3.2.jar”和“hive-exec-2.1.1-cdh6.3.2-core.jar”。这些jar是Hive执行层的核心组件,包含了Hive查询的执行逻辑和各种操作的实现。在打补丁并重新编译后,这些新的jar文件将包含改进后的字段血缘追踪代码,从而能够正确地在Atlas中展示。
进行这样的操作需要对Java编程、Hive源代码、Maven构建系统以及Apache Atlas有深入的理解。用户需要获取Hive的源代码,并定位到与字段血缘追踪相关的部分。这可能涉及到HQL解析、执行计划生成以及元数据管理等多个模块。接着,根据补丁说明或自行分析,对源代码进行修改。完成修改后,使用Maven进行编译,生成新的jar文件。
替换原有的jar文件到CDH环境中的Hive安装目录下,通常是在Hive的lib目录下。之后,可能需要重启Hive服务以使更改生效。通过Apache Atlas的UI或API来验证字段血缘是否能正确展示。
这个过程虽然复杂,但对于确保数据质量和满足合规性要求来说是必要的。同时,这也展示了在大数据环境中,对开源软件进行定制化开发和维护的重要性。通过理解这些知识点,IT专业人员可以更好地应对类似的问题,提升大数据平台的性能和功能。

loujielong
- 粉丝: 0
最新资源
- 目标检测+追踪,python+pytorch推理yolo5,python+pytorch推理deepsort
- 基于PyTorch框架的自然语言处理全流程实现项目-包含数据预处理-数据集构造-模型设计-训练评估-测试推理-上线部署六大核心模块-支持中文文本处理-分字分词-词表构建-批量处理-.zip
- 基于 OpenCV 与 onnxruntime 的开放域目标检测部署(C++ 和 Python 版本)
- 图书馆图书搜索引擎Pro-全球图书馆资源聚合搜索平台-集成全球148个国家公共图书馆和大学图书馆网址库-支持百度360必应搜狗淘宝京东豆瓣当当孔夫子等主流图书搜索引擎-覆盖中国29.zip
- 一个全面系统的问答技术调研与分析项目-包含社区问答机器阅读理解知识图谱问答表格问答视觉问答等八大领域-详细梳理学术界和工业界最新研究进展与技术方案-涵盖自然语言处理深度学习知识图谱.zip
- 目标检测+追踪,python+pytorch推理yolo5,python+pytorch推理deepsort
- 基于yolov5训练的是否佩戴口罩目标检测模型
- CTO下载转贴一个网络设计方案的例子.doc
- PLC电梯模型控制设计方案参考.doc
- 计算机毕业设计论文ERP开发生产管理系统.doc
- 3dsmax三维动画设计方案实训.doc
- 瓦斯抽放流量计算软件使用手册V1.5.doc
- 微机原理与接口实验47中断控制器-8259赖晓铮.ppt
- 计算机信息技术在机构编制电子政务中的应用.docx
- 工业互联网背景下的传统制造企业数字化转型探究.docx
- 智能家居在和家园智能项目的应用案例-公共场所其他.docx