没有合适的资源?快使用搜索试试~ 我知道了~
Kylo调研总结

温馨提示
Kylo定位于企业级的数据湖管理平台(Data Lake Platform),它是基于Spark和NiFi的开源数据湖编排框架,Kylo提供的主要特性包括数据获取、数据准备和数据发现,并支持元数据管理、数据治理和高级安全特性。
资源详情
资源评论
资源推荐

1 Kylo 调研总结
1 Kylo 调研总结
1.1 定位
Kylo 定位于企业级的数据湖管理平台(Data Lake Platform),它是基于 Spark 和 NiFi
的开源数据湖编排框架,Kylo 提供的主要特性包括数据获取、数据准备和数据发现,
并支持元数据管理、数据治理和高级安全特性。
1.2 厂商信息
Kylo 是由 Teradata 天睿公司开源,并被航空、保险、电信、金融服务、银行和零售行
业的全球 Top N 公司所应用。
1.3 经典场景
通过 Kylo 的 GUI 界面,业务人员可以按照他们关心的方式来操作数据,包括:创建数
据源、定义数据加载、数据预处理、转换,发布到目标系统。
1.4 Kylo 系统介绍
1.4.1 系统组件
➢ Kylo-ui:即前端 web 组件,主要包括 Operations、Feed Manager 和 Admin 三个一级
功能:
- Operations:提供仪表盘、服务状态监控、Job 执行概览、告警查看、SLA 调度
等功能。
- Feed Manager:提供 Feed 管理、目录分类、SLA、可视化查询以及数据预览等
能力。
- Admin:提供用户管理、分组管理、数据源管理、模板管理等功能。

1 Kylo 调研总结
➢ kylo-services:Kylo 服务后端,为前端提供 Rest ful 接口,并实现 Job 仓库、元数据
仓库的管理能力,并负责与依赖组件如 ES、NiFi、Hadoop Cluster 的通信。
1.4.2 系统依赖
Kylo 的安装和运行依赖于多种外部组件,组件及其作用如下所示:
概述说明如下:
MySQL/PG/MS SQL Server :kylo 需要使用关系型数据库实现其元数据存储与管理
MQ:用于不同组件之间的消息通信
JDK:Kylo 运行在 java 虚拟机中
ES/Solr:用于 Hive 中元数据或 Feed 数据的全局搜索(前提是在创建 Feed 时需要指定索
引)
Spark、Hive、HDFS:Kylo 具有调用大数据集群的能力,Kylo 默认将 Spark 作为 Hive
的执行引擎。
1.4.3 组网模式
Kylo 的自有服务和依赖服务可以分开部署,也可以部署在一台服务器上。Kylo 既支持
单机模式也可以集群方式。
组网结构如下所示:

1 Kylo 调研总结
1.4.4 与大数据系统的关系
在物理上,Kylo 既独立于源系统和目标系统,同时也与 CDH/HDP Cluster 相互独立。
但 Kylo 需要集成 Hive、HDFS、Spark 等的 lib 库,从而实现与大数据集群的通信。
Kylo 集成的部分 lib 库如下所示:
1.4.5 与 NiFi 的关系
Kylo 依赖 NiFi 实现数据流编排的能力,即 Kylo 中对数据的处理依赖于 NiFi 中的模
板,在工作中需要先在 NiFi 中完成模板定义,然后从 NiFi 中导出并导入到 Kylo 中,
如下所示:
NiFi 中的数据流:
NiFi 中的模板:

1 Kylo 调研总结
Kylo 中的模板:
1.5 Kylo 功能介绍
Kylo 提供服务用于生成 Hive 表、基于 Hadoop 中的数据生成 schema、执行基于 Spark
的转换、元数据跟踪、监控 feed 和 SLA 策略、发布数据到目标系统。
Kylo 前端提供的功能模块包括 Operations、Feed Manager、Admin。
1.5.1 Operations
Operations 侧重于运维管理。
Dashboard
Dashboard 通过仪表盘和列表使用户快速了解系统的状态:

1 Kylo 调研总结
Services
Services 则用于检测 Kylo 集成的服务的状态状态:
SLA Assessments
SLA Assessments 提供 SLA 任务调度结果查看功能:
剩余28页未读,继续阅读
























汀桦坞
- 粉丝: 177
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 数学建模与计算机的关系研究.docx
- 基于PLC立体仓库——keshine物流咨询方案部仓储管理培训.doc
- XX中华新天地项目管理推广建议案.doc
- 基于 PyTorch 框架的卷积神经网络手写字体分类与识别系统
- 嵌入式车载设备中存储系统抗干扰专业技术研究.doc
- 涉密信息系统集成资质保密知识检测测验题(20160112更新).doc
- 想象、现实、工具:基于人工智能文艺创作的多重思考.docx
- 大学生网络游戏成瘾案例分析与思考.docx
- 大数据时代人工智能的创新与发展研究.docx
- 计算机图形学实验五直线段裁剪.doc
- 基于深度学习的初中物理实验教学策略初探.docx
- 计算机UG软件在《机械基础》课上的应用.docx
- 51单片机只能家用电热水器方案设计书.doc
- RockwellPLC在十层电梯控制系统中的应用.doc
- PLC控制系统总体设计方案.doc
- CS、CSS架构应用的软件性能测试模型研究.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制

评论1