使用Neo4j Vector Index进行向量相似性搜索的实战指南

最新推荐文章于 2025-07-03 09:32:33 发布

原创最新推荐文章于 2025-07-03 09:32:33 发布 · 178 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#neo4j #oracle #数据库

技术背景介绍

Neo4j是一款开源图数据库，近年来集成了向量相似性搜索的支持。利用Neo4j的向量索引（Neo4jVector），开发者可以进行近似最近邻搜索、欧几里得相似性、余弦相似性以及结合关键词的混合搜索。这为基于图数据库的应用场景开启了新的可能性。

核心原理解析

Neo4j Vector Index的核心在于将文本数据转化为高维向量，并利用这些向量进行各种类型的相似性计算。这种机制不仅支持多种相似性算法，还允许混合向量和关键词进行检索，以提供更加灵活和精确的搜索能力。

代码实现演示(重点)

以下是如何使用Neo4j Vector Index进行向量相似性搜索的详细代码示例。

import os
import getpass
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import Neo4jVector
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

# 获取OpenAI API密钥
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

# 加载文档
loader = TextLoader("../../how_to/state_of_the_union.txt")
documents = loader.load()

# 文本分割
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 创建OpenAI嵌入
embeddings = OpenAIEmbeddings()

# Neo4j数据库连接信息
url = "bolt://localhost:7687"
username = "neo4j"
password = "password"

# 从文档中创建Neo4j向量索引
db = Neo4jVector.from_documents(
    docs, OpenAIEmbeddings(), url=url, username=username, password=password
)

# 执行相似性搜索
query = "What did the president say about Ketanji Brown Jackson"
docs_with_score = db.similarity_search_with_score(query, k=2)

for doc, score in docs_with_score:
    print("-" * 80)
    print("Score: ", score)
    print(doc.page_content)
    print("-" * 80)