介绍
在人工智能领域,“检索器”是一种用于筛选大量数据以查找与用户查询相关的信息的工具。可以将其视为一个高度智能的搜索引擎,帮助人工智能系统理解和收集有效回答问题所需的准确信息。检索器是检索器增强生成 (RAG) 框架的基石,在为人工智能应用程序提供准确、无缝的体验方面发挥着至关重要的作用。
关于DenserRetriever
Denser Retriever是一个企业级的RAG检索器,将多种搜索技术整合到一个平台中。在MTEB数据集上的实验表明,Denser Retriever可以显著提升向量搜索(VS)的基线(snowflake-arctic-embed-m模型, 在MTEB/BEIR排行榜达到了最先进的性能)。
它来自Denser.ai公司,创始人是黄志恒,曾担任 AWS 首席科学家,领导过 Amazon Kendra 和 Amazon Business Q 项目,截至 2024 年7 月,他的谷歌学术被引用次数超过 13,700 次。Denser Retriever是完全开源的,可以使用其构建自己专属的RAG应用和聊天机器人。
GitHub地址:https://github.com/denser-org/denser-retriever/tree/main
Denser Retriever官网:https://retriever.denser.ai/
创建你自己的 DenserRetriever
注册账户
如果您没有账户,请访问DenserRetriever进行注册。转到“设置”页面,您将在其中看到 API 密钥。单击“创建新 API 密钥”以获取您的 API 密钥。将其保存在安全的地方。
创建检索器
返回“Retrievers”部分,您需要单击按钮Add Retriever
来开始该过程。
此功能可让您高效地自定义和管理数据存储。您可以添加各种类型的数据,包括网页、文件、文本文档等。通过这样做,您可以确保所有重要信息都井井有条,并在需要时轻松访问。
添加您自己的数据源
现在,您可以通过选择数据类型(例如网页、文件、文本)并提供相关详细信息来添加自己的数据。添加数据后,检索器将开始处理和索引数据以供将来查询。
这里我们添加densier.ai网站作为示例。
点击完成按钮。几分钟后,所有网页源将被 DenserRetriever 索引。
复制检索器 ID
就这样。现在您可以在设置中复制您的 Retriever ID。
创建自定义 GPT
💡 请注意,您需要一个ChatGPT plus帐户才能进行页面中概述的测试,因为 GPT-4 模型访问需要 ChatGPT plus 帐户。
完成上一节中的步骤后,您就可以构建自定义 GPT。
添加 GPT 操作
1. 转到Configure
选项卡(您可能需要编辑“标题”、“描述”、“摘要”字段以适合您的用例。例如,如果您正在构建 AWS 技术支持网站,则可以添加“有关 AWS 云计算的一切”等描述)
2. 点击Create new action
按钮
3. 将 API 密钥添加到Authorization
字段
4. 复制下面的整个架构 openapi.yaml
并将其粘贴到Schema
字段中,记得用您自己的检索器 ID替换<REPLACE WITH YOUR RETRIEVER ID>
openapi: 3.1.0
info:
title: DenserRetriever API
description: OpenAPI schema for DenserRetriever API
version: 1.0.0
servers:
- url: https://retriever.denser.ai
paths:
/api/retrievers/retrieve:
post:
operationId: retrieve
summary: Retrieve passages from the DenserRetriever
tags:
- dataStores
requestBody:
required: true
content:
application/json:
schema:
type: object
properties:
id:
type: string
default: <REPLACE WITH YOUR RETRIEVER ID>
query:
type: string
k:
type: number
default: 5
required:
- id
- query
- k
additionalProperties: false
parameters: []
responses:
"200":
description: Successful response
content:
application/json:
schema:
type: object
properties:
passages:
type: array
items:
type: object
required:
- passages
additionalProperties: false
5. 添加隐私政策链接。对于此示例,您可以使用 DenserRetriever 隐私政策
6. 点击“更新”按钮更新 GPT
测试你的 GPT
创建自定义 GPT 后,您可以通过提出问题并查看它如何从数据源检索信息来对其进行测试。
常问问题
我们需要 ChatGPT plus 帐户来进行测试吗?
- 是的。根据ChatGPT Plus 订阅,您需要 ChatGPT plus 帐户来创建自定义 GPT 。
索引数据需要多长时间?
- 索引数据通常需要几分钟。不过,具体时间可能因数据量而异。
我可以向 Retriever 添加多个数据源吗?
- 是的,您可以向 Retriever 添加多个数据源。这样您就可以高效地组织和管理数据。
如需了解更多具体疑问,请联系support@denser.ai。