
1、向量数据库
1、向量数据库介绍
我们在用图片搜索图片,或者语音搜索语音的时候,在数据库中存储和对比的并
不是图片和语音片段,而是通过深度学习等算法提取出来的“特征”,一般是
256/512 个 float 数组,可以用数学中的向量来表示。
向量数据库就是用来存储,检索,分析向量的数据库。只所以称之为数据库,是
因为它有下面几个特征:
a) 提供标准的访问接口,降低用户的使用门槛
b)提供高效的数据组织,检索和分析的能力。一般用户在存储和检索向量的同
时,还需要管理结构化的数据,即支持传统数据库对结构化数据的管理能力。
2、向量数据库的优势
举例介绍:
问:使用 Embedding 与仅仅在数据库上使用全文搜索有什么不同?
答:假设我的数据库里有一段文字 “老鼠在寻找食物”。用户输入了"'奶酪
因为“老鼠”和“奶酪
3. 向量数据库解决的问题
从技术角度来讲,向量数据库主要解决 2 个问题,一个是高效的检索,另一个是
高效的分析。
1)检索通常就是图片检索图片,例如人脸检索,人体检索,和车辆检索,以及
淘宝的商品图片检索,人脸支付。
2)城市应用的也比较多,例如人脸撞库,公安会把 2 个类似作案手法的案发现
场周边的人像做对比,看哪些人同时在 2 个案发现场出现。
4、部分向量数据库产品
Milvus、Pinecone、Vespa、Weaviate、Vald、用于 Elasticsearch 和 OpenSearch
的 GSI APU 板、Qdrant