文章目录
一、OceanBase机器学习SQL扩展概述
1.1 OceanBase与AI融合的技术架构
OceanBase作为一款企业级分布式数据库,在4.3版本后开始深度融合AI能力,其技术架构主要体现在两个主要方向上:
-
近似搜索:利用大语言模型(LLM)的嵌入(embedding)技术,将非结构化数据(如图片、文本)转换为向量数据并存储于数据库中。通过数据库系统提供的向量运算和近似度查询功能,实现搜索推荐和非结构化数据查询的应用场景。
-
检索增强生成(RAG):大模型虽然具备自然语言对话、文本总结等通用能力,但受限于预训练时的知识范围。OceanBase可以存储问答语料并为大语言模型提供语料检索,增强其知识覆盖范围。
OceanBase的机器学习SQL扩展主要通过以下技术组件实现:
- 向量数据类型(VECTOR):支持定义和存储向量数据
- 向量索引:支持IVFFLAT和HNSW两种近似最近邻(ANN)搜索算法
- 向量距离计算:支持欧式距离、内积和余弦距离计算
- 分区并行处理:支持并行构建索引和执行搜索