Apache Kyuubi 快速入门指南
Apache Kyuubi 是一个分布式 SQL 网关,为用户提供统一的 JDBC 接口来访问多种计算引擎(如 Spark、Flink、Trino 等)。本文将详细介绍如何快速搭建 Kyuubi 环境并进行基本操作。
环境准备
在开始之前,请确保您的系统满足以下基本要求:
- Java 环境:需要安装 Java 8/11/17,并正确设置 JAVA_HOME 环境变量
- Kyuubi 安装包:最新稳定版本的二进制发行版
- 计算引擎(以 Spark 为例):Spark 3.2-3.5 或 4.0 版本
安装步骤
1. 安装 Kyuubi
下载 Kyuubi 二进制包后,解压缩到目标目录:
tar zxf apache-kyuubi-<version>-bin.tgz
解压后的目录结构包含以下重要部分:
bin/
:包含 Kyuubi 服务启动脚本conf/
:配置文件目录externals/engines/
:支持的计算引擎logs/
:日志文件目录
2. 安装 Spark
下载并解压 Spark 发行版:
tar zxf spark-<version>-bin-hadoop3.tgz
注意:Kyuubi 目前主要支持 Spark 3.x 系列和 Scala 2.12 版本。
配置 Kyuubi
在 conf/
目录下有两个重要配置文件:
- kyuubi-env.sh:设置环境变量
- kyuubi-defaults.conf:设置系统属性
基本配置示例
# 设置 Java 路径
echo 'export JAVA_HOME=/path/to/java' >> conf/kyuubi-env.sh
# 设置 Spark 路径
echo 'export SPARK_HOME=/path/to/spark' >> conf/kyuubi-env.sh
启动 Kyuubi 服务
使用以下命令启动 Kyuubi 服务:
bin/kyuubi start
启动成功后,可以在日志文件中找到 JDBC 连接 URL,格式如下:
jdbc:kyuubi://localhost:10009/
如需在前台运行(方便调试),可以使用:
bin/kyuubi run
使用 Kyuubi Beeline 客户端
Kyuubi 提供了类似 Hive Beeline 的客户端工具。
1. 连接 Kyuubi 服务
bin/kyuubi-beeline -u 'jdbc:kyuubi://localhost:10009/' -n <username>
2. 执行 SQL 查询
连接成功后,可以执行各种 SQL 语句:
-- 查看数据库
SHOW DATABASES;
-- 创建表
CREATE TABLE test (id INT, name STRING);
-- 查询数据
SELECT * FROM test;
3. 关闭连接
!quit
引擎管理
Kyuubi 采用智能的引擎管理策略:
- 自动启动:首次连接时会自动启动计算引擎
- 共享机制:相同用户的连接会复用已有引擎
- 生命周期:引擎会根据配置自动管理生命周期
停止 Kyuubi 服务
bin/kyuubi stop
注意:停止服务后,已启动的引擎可能还会运行一段时间,具体取决于配置的生命周期参数。
进阶说明
- 高可用:可以通过 ZooKeeper 实现 Kyuubi 服务的高可用
- 多引擎支持:除了 Spark,还支持 Flink、Trino 等多种计算引擎
- 资源隔离:通过不同的用户和引擎共享级别实现资源隔离
通过本指南,您应该已经掌握了 Kyuubi 的基本使用方法。如需了解更多高级功能和配置选项,可以参考官方文档或社区资源。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考