- 博客(106)
- 收藏
- 关注
原创 深湖:打造AI应用的多模态数据库
Deep Lake 是一种专为构建AI应用而设计的多模态数据库。它能够存储矢量、图像、文本、视频等数据,并与LLMs(大型语言模型)和LangChain协作使用。Deep Lake 提供强大的数据存储、查询、版本控制和可视化能力,能够实时将数据流传输到PyTorch或TensorFlow。这使得它在处理复杂的AI数据集时极为适用。
2025-07-11 11:55:23
350
原创 构建基于嵌入向量的AI应用: 使用Chroma和SelfQueryRetriever
Chroma利用嵌入向量实现高效的文档检索,使得基于内容的查询更精准。SelfQueryRetriever是一个能够根据自定义元数据和内容描述自动检索相关文档的工具。结合这两者,我们可以实现复杂的查询机制。
2025-07-11 11:53:37
292
原创 利用Label Studio优化LangChain数据标注流程
Label Studio允许用户根据需求自定义标注配置,可以在UI中添加更多目标标签以获得更细致的标注。<View></Choices></View>""")通过这种方式,我们可以灵活地为不同的项目配置标注需求。
2025-07-10 15:20:35
1055
原创 使用Comet进行LangChains执行跟踪
LangChain是一种用于创建复杂链式AI应用的框架,允许开发者组合多个步骤和工具来执行复杂任务。Comet则是一个广泛使用的实验管理和模型性能监控平台,通过对执行链进行详细的追踪,帮助开发者快速识别和解决问题。
2025-07-10 15:17:41
474
原创 使用Remembrall增强LangChain中的长时记忆和检索增强生成
Remembrall是一个轻量级的代理层,能够在OpenAI调用的基础上增强语言模型的长时记忆功能、检索增强生成(Retrieval Augmented Generation)以及全程可观测能力。只需几行代码,您就可以将相关事实动态地添加到对话上下文中,极大地提升对话的智能性和相关性。
2025-07-10 15:10:24
345
原创 使用AstraDBByteStore实现高效的键值存储
AstraDBByteStore 是一个用于与DataStax Astra DB集成的库,专注于键值存储功能。它通过LangChain AstraDB的集成,使用一个简单的API,允许开发人员在本地与云端高效地管理数据。
2025-07-10 10:34:03
273
原创 Oracle AI Vector Search: 使用 Langchain 生成文档摘要
使用 Oracle AI Vector Search 的 Langchain 库可以实现文档摘要生成。# 配置摘要生成参数,选择 'database' 提供者# 实例化摘要生成对象from langchain_community . utilities . oracleai import OracleSummary # 配置摘要生成参数,选择 'database' 提供者 summary_params = {
2025-07-10 10:21:04
346
原创 使用Jira工具集与LangChain集成实现自动化问题管理
Jira Toolkit是一个封装的工具库,它利用来与Jira实例交互。通过该工具包,开发者能够执行诸如搜索问题、创建问题等操作。LangChain是一种能够增强自然语言处理的库,可以与Jira Toolkit协同工作,实现复杂的自动化任务。
2025-07-10 10:12:58
523
原创 利用ArceeRetriever检索领域自适应语言模型(DALMs)的相关文档
Arcee致力于开发小型、专用、安全且可扩展的语言模型(SLMs),这些模型在特定领域表现卓越。为了有效地获取相关领域文档,Arcee提供了ArceeRetriever类,支持灵活、精确的文档检索。
2025-07-02 16:32:23
385
原创 使用Tigris构建高性能向量搜索应用
向量搜索应用通常需要处理海量数据和复杂的计算,为此需要一种高效且易于管理的数据库系统。Tigris通过提供简化的API和集成方案,让开发人员可以快速构建和优化向量搜索功能。此外,结合OpenAI的API,开发者能够利用最新的AI技术进行文本嵌入和搜索。
2025-07-02 16:22:30
327
原创 使用SemaDB构建AI应用的向量相似性搜索
SemaDB 提供了一种轻松存储和查询高维嵌入向量的方法,非常适合构建需要快速相似性匹配的智能应用。通过与LangChain库的集成,开发者可以快速加载和处理文本嵌入,并进行高效的相似性查询。
2025-07-02 16:16:18
354
原创 使用Neo4j Vector Index进行向量相似性搜索的实战指南
Neo4j是一款开源图数据库,近年来集成了向量相似性搜索的支持。利用Neo4j的向量索引(Neo4jVector),开发者可以进行近似最近邻搜索、欧几里得相似性、余弦相似性以及结合关键词的混合搜索。这为基于图数据库的应用场景开启了新的可能性。
2025-07-02 16:09:28
177
原创 利用Kinetica Vectorstore进行向量相似性搜索的实战指南
向量相似性搜索是现代AI应用中的重要组件,尤其是在自然语言处理和推荐系统中。Kinetica作为一款高性能数据库,已经集成了向量相似性搜索功能,为开发者提供了便捷高效的解决方案。
2025-07-02 14:25:02
241
原创 使用 Beautiful Soup 进行 HTML 文档解析与数据提取
Beautiful Soup 提供了对 HTML 内容的细粒度控制,使得用户可以根据需要提取特定的标签、删除不需要的内容并清理 HTML。无论是提取数据还是清理内容,Beautiful Soup 都是一个强大的工具,非常适合需要提取特定信息并根据需求清理 HTML 内容的场景。在实际应用中,我们经常需要从 HTML 文档中提取文本内容,如<p><li><div>, 和<a>标签内的内容。
2025-07-02 09:40:34
350
原创 使用Embaas Embeddings API进行文本嵌入生成
生成文本嵌入是一项将文本数据转换为向量表示的技术,这使得复杂的文本处理任务变得简单和高效。Embaas提供了不同的预训练模型,以满足各种需求并保持灵活性。
2025-07-01 16:01:23
284
原创 使用LangChain与Yuan2.0进行文本生成
Yuan2.0可以应用于诸如问答系统、聊天机器人、内容生成等场景,尤其是在需要处理大规模文本理解和生成任务的情况下表现出色。通过LangChain与Yuan2.0结合,开发者能够更轻松地实施复杂的语言处理任务。在使用Yuan2.0进行开发时,请确保本地推理服务稳定运行,并根据实际需求调整生成参数,如。优化环境中的网络设置可提高访问效率。此外,若需要保持上下文,请考虑开启。如果遇到问题欢迎在评论区交流。
2025-07-01 15:58:48
137
原创 使用AWS S3加载文档对象指南
Amazon S3是一个高度可扩展的对象存储服务,设计用于存储和检索任意数量的数据。对于数据科学家和开发者,它为海量数据的处理提供了基础设施支持。S3存储桶可以保存文本文件、图像、视频等格式,这使其成为机器学习模型预处理数据的理想选择。
2025-07-01 14:07:05
194
原创 使用 SemaDB 进行简单高效的向量相似性搜索
传统的向量相似性搜索通常需要开发者进行复杂的配置,包括计算节点大小、定义数据库模式、设置分区、参数调优和安装复杂的软件工具。SemaDB 的云托管版本则提供了一个 “无忧” 的解决方案,不再需要这些复杂操作。
2025-07-01 13:40:54
339
原创 利用Rebuff检测和防御AI的Prompt Injection攻击
在AI应用飞速发展的今天,保护系统免受恶意攻击变得愈发重要。尤其是针对AI的Prompt Injection攻击,可以对数据库和系统的完整性造成严重威胁。Rebuff正是一个专为此问题设计的自硬化Prompt Injection攻击检测器,它通过多阶段的防御机制保护AI应用。本文将详细介绍如何使用Rebuff检测和预防Prompt Injection攻击。
2025-07-01 13:35:25
222
原创 利用Oracle Cloud Infrastructure (OCI)进行AI应用开发
Oracle Cloud Infrastructure (OCI) 提供了一系列强大的工具,用于生成、管理和部署机器学习模型。特别是OCI的生成性AI服务,它提供了一组最先进的、可定制的大型语言模型(LLMs),支持多种应用场景。这些模型可以通过一个简单的API进行访问,不论是使用预训练的模型还是基于自己的数据在专用AI集群上创建和托管定制模型,OCI都能提供全面支持。
2025-07-01 11:09:20
251
原创 开发使用Nuclia自动索引和优化搜索结果的AI应用
Nuclia能够处理视频和音频转录、图像内容提取以及文档解析。通过使用Nuclia Understanding API,我们可以自动将复杂的非结构化数据转化为结构化信息,并进行相应的处理和分析。
2025-07-01 11:08:22
266
原创 使用HTML2Text将HTML转换为可读文本
HTML文档广泛应用于web开发,但在某些情况下,我们需要将其内容提取为纯文本,以便进行进一步处理。html2text就是为了解决这一问题而设计的,它能够高效地解析HTML并输出为Markdown格式的文本。
2025-07-01 10:49:11
159
原创 使用Gradient优化和生成大型语言模型的实践指南
Gradient提供了一种简单的方式来优化和获取大型语言模型的补全结果。通过其提供的Python SDK,开发者可以轻松地进行模型微调以及调用文本嵌入模型,适用于广泛的应用场景,例如文本生成、情感分析和智能问答等。
2025-06-30 17:27:25
358
原创 使用ClickHouse实现高性能向量数据库
随着AI应用的普及,处理和存储向量数据的需求不断增加,而传统数据库可能难以满足这种需求。ClickHouse通过提供专用的数据结构和高效的索引机制,为向量数据的存储和检索提供了强有力的支持。
2025-06-30 17:05:11
382
原创 在LangChain中使用Banana生态系统进行AI模型部署
您需要创建一个GitHub仓库来存放您的Banana应用。您可以使用快速指南在5分钟内启动,或者直接使用Banana的CodeLlama-7B-Instruct-GPTQ GitHub仓库。只需fork仓库并在Banana中部署。
2025-06-30 15:19:31
341
原创 探索Baichuan API在AI应用中的高效集成
Baichuan是一家致力于提升效率、健康和幸福的中国初创公司,专注于通用人工智能(AGI)的时代。他们提供了一系列人工智能模型接口,包括大语言模型(LLMs)、对话模型(Chat Models)、以及嵌入模型(Embeddings),可以广泛应用于各种AI技术场景。
2025-06-30 15:18:36
294
原创 使用Arxiv进行学术文章检索与文本转换的实战指南
arXiv是一个涵盖多个学科的开源论文档案,不仅对学术研究人员有帮助,也对开发者、技术人员有极大的参考价值。通过一些工具和库,我们可以轻松地访问这些论文,并转换为我们需要的格式进行处理。
2025-06-30 15:16:20
263
原创 探索Apache Doris的实时分析能力及其Python实现
随着大数据时代的到来,企业对实时数据分析的需求越来越高。传统的批处理系统已无法满足实时性要求。Apache Doris 通过其高性能的向量化执行引擎,为这种需求提供了解决方案。
2025-06-30 15:12:11
502
原创 探索Cohere聊天模型:从入门到实践
在当今的人工智能领域,聊天模型已经成为一个重要的应用方向。Cohere提供了一套强大的API接口,允许开发者通过其平台构建和使用先进的聊天模型。本文将介绍如何使用Cohere的聊天模型,并结合LangChain库来提高开发效率。
2025-06-30 13:03:45
122
原创 使用SQL-Ollama与自然语言交互SQL数据库的指南
您可以选择许多LLM,有详细介绍。此包包含一个2023年NBA球员名单的示例数据库。是构建此数据库的说明。
2025-06-30 10:32:03
378
原创 使用FireworksAI进行检索代理架构的技术实践
FireworksAI是一项提供开源模型服务的平台,能够简化大规模的模型运行。在这篇博客中(),Mixtral8x7b-instruct-v0.1被推荐用于检索任务,尽管它并未对此专门进行微调,但在函数调用方面表现出了较好的效果。
2025-06-30 10:25:25
648
原创 使用Elastic-Query-Generator与Elasticsearch进行自然语言查询
Elasticsearch是一个广泛使用的分布式搜索引擎,支持强大的搜索和分析功能。Elastic-Query-Generator通过结合大语言模型(LLM),允许用户使用自然语言构建Elasticsearch查询。这种能力极大地降低了用户与复杂数据系统交互的难度。
2025-06-27 13:17:54
389
原创 使用AI21 Labs的生态系统与LangChain集成
AI21 Labs是一家专注于自然语言处理(NLP)的公司,致力于开发能够理解和生成自然语言的AI系统。它提供了一系列强大的API,供开发者用来构建智能应用及增强现有系统。在本文中,我们将介绍如何通过LangChain集成AI21 Labs的生态系统,以便开发者能够高效地利用这些语言模型和工具。
2025-06-27 12:56:11
301
原创 探索 Hugging Face 平台上的集成与应用
Hugging Face 提供的工具包和模型库极大地简化了机器学习应用的开发。它涵盖了各种任务,包括但不限于文本生成、文本嵌入和序列分类。与 Langchain 的集成进一步扩展了 Hugging Face 的能力,使得开发人员可以更方便地在应用中使用这些功能。
2025-06-27 09:20:44
388
原创 深入探索LangServe和LangChain的REST API部署
LangServe非常适合用于需要快速构建和部署语言模型的场景,如客户服务聊天机器人、内容生成应用或数据分析助手等。此外,它的流式日志和事件功能可以为实时数据处理提供支持。如果遇到问题欢迎在评论区交流。
2025-06-27 09:18:32
311
原创 从MultiPromptChain迁移到LangGraph的实践指南
在AI应用开发中,MultiPromptChain是常用的工具,可以根据输入查询选择多个LLM (大型语言模型) 链中的一个来生成响应。然而,MultiPromptChain不支持常见的聊天模型功能,如消息角色和工具调用。为了提升这些功能的优势,LangGraph提供了一种更为灵活的解决方案。LangGraph支持聊天提示模板,包括具有系统和其他角色的消息,同时支持工具调用来进行路由步骤,还支持步骤和输出令牌的流式处理。
2025-06-27 09:15:35
368
原创 如何在运行时向LangChain工具传递值
使用语言模型去调用并执行工具是在AI应用开发中十分重要的功能。然而,在某些情况下,工具需要参数值在运行时注入,以防止语言模型生成不安全的内容。例如,对于用户相关的数据,尤其是用户ID,通常我们希望这些数据由应用逻辑而非语言模型来管理。
2025-06-26 15:54:16
235
原创 快速初始化语言模型的技巧
随着人工智能技术的迅猛发展,市面上出现了多种提供类似功能的语言模型,如OpenAI的GPT、Anthropic的Claude以及Google Vertex AI等。这些模型各有优点,如何快速初始化和集成这些模型成为开发者面临的一个挑战。
2025-06-26 13:51:54
275
原创 使用LangChain进行文本字符分割的实战指南
LangChain是一个专注于支持文本操作的库,它提供了灵活的文本分割功能。对于大文本的处理,尤其是在自然语言处理任务中,文本分割可以有效提高处理效率和减少资源消耗。是该库的核心组件之一,专门用于基于字符的文本切分。
2025-06-26 13:49:44
263
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人