- 博客(51)
- 资源 (3)
- 收藏
- 关注
原创 LLM 微调实现原理及步骤
摘要: LLM微调通过将业务知识库转化为高质量QA对,训练模型根据文档生成精准回答,避免编造和跑题。流程分为六步:1)准备结构化知识库;2)生成训练数据(人工/LLM自动生成);3)使用LoRA等技术微调模型;4)人工/自动评估效果;5)优化数据迭代训练;6)部署为RAG系统,动态结合检索与生成。核心在于通过数据迭代让模型学会"依文档作答",而非记忆固定答案,最终实现可控的智能问答服务。(150字)
2025-09-15 09:26:14
544
原创 RAG知识问答系统实现全流程
本文详细介绍了检索增强生成(RAG)知识问答系统的构建全流程。系统从多源数据采集、清洗与质量把控入手,通过文本分块、向量嵌入实现知识表示与索引构建。采用混合检索策略(BM25+向量搜索)获取相关文档,并优化提示工程与生成参数确保回答质量。系统支持多维度评估(召回率、忠实度等)、持续迭代优化,可适配垂直领域需求并扩展多模态功能,有效解决大模型知识过时和幻觉问题,适用于企业知识库、医疗咨询等场景。整个流程兼顾技术细节与工程实践,强调数据质量、检索精准度与生成可控性的平衡。
2025-09-15 09:21:15
485
原创 企业知识库向量数据库选型分析
针对企业知识库与知识问答场景,本文对比Weaviate、Chroma、Milvus、Qdrant和PgVector五大向量数据库的核心功能与适用性。
2025-09-13 08:23:05
501
原创 深入分析RAG知识库多模态数据预处理
多模态企业数据预处理是构建高质量RAG知识库的关键环节。本文详解了处理流程:1)文档格式识别与路由;2)多模态内容提取(文本、图像、音视频);3)结构解析与语义重建;4)数据清洗与增强;5)智能分块(强调语义完整性);6)元数据注入。推荐使用开源工具如PaddleOCR、Whisper、BLIP-2等,或商业API处理复杂场景,最终生成带丰富元数据的结构化内容,为后续向量化检索奠定基础。
2025-09-13 08:08:33
896
原创 RAG应用评估
【摘要】RAG(检索增强生成)应用评估是技术落地的核心闭环,从原型搭建到价值实现的关键环节。评估体系需破解大模型幻觉、优化知识库动态变化,并通过6个核心指标(正确性、忠实度、上下文相关性等)量化全链路性能。LlamaIndex等框架支持"数据准备-组件评估-综合分析"四步流程,结合第三方工具(如Ragas)可提升效率。评估结果需针对性优化,如调整文本切分策略或Prompt设计,最终实现从"能运行"到"能创造价值"的跨越。(150字)
2025-09-12 11:40:27
888
原创 RAG应用评估依据与指标
RAG系统评估主要围绕检索器、生成器和整体性能三大模块展开。检索评估指标包括命中率、MRR和NDCG,衡量相关文档的召回与排序;生成评估聚焦忠实度、答案相关性和准确性,确保答案基于上下文且正确。端到端评估则关注正确性、有用性等用户体验指标。常用工具有RAGAS、TruEra等自动化框架,结合人工校验形成评估闭环。评估流程包括构建测试集、定义指标、实验分析、根因诊断和迭代优化,需持续监控系统表现。延迟、成本等非功能性指标也是重要考量因素。
2025-09-12 11:35:33
728
原创 深入分析MCP工具参数设计与AI约束机制
MCP服务器通过结构化参数设计和多维度约束机制,实现AI工具的安全高效调用。参数设计采用JSON Schema规范定义类型与验证,结合清晰文档和结构化提示模板降低AI使用难度。约束机制涵盖三方面:1)安全权限控制,隔离敏感信息并过滤输入;2)执行隔离,设置超时阈值和资源访问限制;3)内容合规审查,确保输出符合伦理规范。该方案在保持灵活性的同时,通过标准化接口和动态权限管理,使AI行为安全可控。
2025-09-11 14:23:40
749
原创 深入分析如何提升RAG应用回答准确率
RAG(检索增强生成)系统的准确率提升需要围绕数据层、检索层和生成层三大环节进行优化。数据层是基础,需确保知识库数据源可靠、文档解析准确、切片策略合理(语义完整、大小适中、适当重叠),并添加元数据和清洗噪音。检索层需选择合适的Embedding模型(适配业务场景),优化Top-K参数平衡召回率与精准率,并引入重排模型进行二次排序。生成层则需引导模型基于可靠上下文生成忠实答案,避免幻觉。通过全链路优化,RAG系统能够为LLM提供精准上下文,从而输出可靠回答。
2025-09-11 10:03:30
653
原创 一文看懂:FastMCP MCP服务三种访问协议
FastMCP框架提供三种访问协议(SSE、Stdio、HTTP)以适配不同集成场景: SSE协议:基于HTTP的服务器推送,适合实时更新场景(如日志推送),是Claude Desktop的首选集成方式; Stdio协议:通过标准输入输出实现进程间通信,低延迟且生命周期可控,常用于VS Code等IDE插件集成; HTTP协议:经典请求-响应模式,支持远程部署和多客户端访问,适用于Web应用或云服务调用。
2025-09-11 08:16:52
860
原创 一文看懂:大型语言模型(LLM)的预训练、微调与参数高效微调(PEFT)全面分析
预训练与PEFT的融合:预训练阶段即设计“PEFT友好”的模型结构(如预留LoRA插入位置),减少后续适配成本;多任务PEFT:开发能同时适配多个任务的PEFT方法(如“统一增量参数”),避免任务间冲突;PEFT与提示工程(Prompt Engineering)的结合:通过“可训练提示(PEFT)+人工提示(Prompt)”进一步提升小样本任务性能;低资源PEFT:针对数据极度稀缺的场景(如仅数十条数据),开发更鲁棒的PEFT方法(如结合数据增强)。
2025-09-10 09:31:43
1325
原创 FastMCP 框架介绍
FastMCP框架摘要(≤150字) FastMCP是用于构建Model Context Protocol(MCP)服务器的高效框架,支持Python/TypeScript实现,通过标准化协议连接大语言模型(LLM)与外部工具/数据。核心功能包括: 工具系统:装饰器将函数转化为LLM可调用工具(Python用@mcp.tool,TS依赖Zod校验)
2025-09-10 08:32:41
581
原创 RAG知识库中文档预处理要求
RAG系统文档预处理的核心环节与要求包括:1)确保格式兼容性和统一性,优先处理可编辑文本并统一格式;2)精准提取核心内容,处理特殊元素如公式、代码和表格;3)进行文本清洗,去除噪音并规范术语与格式;4)重建文档语义层级,明确标题结构和列表内容;5)按语义单元拆分Chunk,避免硬拆分,确保检索精度。整个过程需遵循语义完整性、检索友好性和噪音最小化原则。
2025-09-09 16:54:52
802
原创 RAG 知识库的文档要求
摘要:构建高效RAG知识库的关键在于文档质量与结构优化。优先选择Markdown、DOCX等格式,慎用PDF;确保内容准确、相关、术语统一;采用清晰标题层级组织文档,合理控制文本分块长度(建议300字左右)。预处理时需转换格式、清理杂质、添加元数据。优化技巧包括:巧用标题层级、灵活调整分块策略、设计内容重叠、规范表格处理。特别注意避免扫描件PDF,遵守文件大小限制,并确保敏感数据安全。定期迭代验证文档效果,持续优化知识库质量。(149字)
2025-09-09 16:52:21
633
原创 混合专家模型详细解析
混合专家模型通过“稀疏激活+动态路由”的创新架构,在模型容量、计算效率和任务适应性上取得突破,成为大模型时代的重要技术路径。尽管面临训练复杂性和显存挑战,但其在多模态、跨领域任务中的潜力已在多个领域得到验证。随着训练系统(如FSMoE、MegaBlocks)和优化策略的不断进步,MoE有望在更广泛的场景中实现高效的智能决策与推理。
2025-09-09 11:43:47
627
原创 GraphRAG 工作原理与应用场景
摘要: GraphRAG是一种结合知识图谱(KG)与检索增强生成(RAG)的技术,通过结构化知识网络提升复杂场景下的推理能力。与传统RAG的孤立文本块检索不同,GraphRAG先构建包含实体、关系及社区结构的图谱,实现全局主题检索与局部关系推理。其优势包括多模态融合、可解释性增强和深度推理能力,适用于企业决策、学术研究等场景,但面临构建成本高、检索延迟等挑战。GraphRAG通过层次化知识表示,解决了传统RAG的语义孤立问题,为医疗、金融等领域提供更精准的生成支持。
2025-09-09 08:49:23
756
原创 深入分析ReAct框架
ReAct框架是专为大型语言模型设计的智能体架构,通过"思考-行动-观察"循环将推理与执行相结合。它整合了Chain-of-Thought的推理能力和工具调用的执行能力,解决了传统方法中知识局限和执行盲目性问题。该框架显著提升了AI任务的可靠性、可解释性和复杂度处理能力,但也面临提示工程复杂、错误传播等挑战。作为AI智能体发展的关键技术,ReAct正在LangChain等平台实现应用,推动从语言模型向实用化智能体的转变。
2025-09-09 08:22:37
718
原创 FastAPI + LangChain 和 Spring AI + LangChain4j
企业级智能体技术选型对比分析:FastAPI+LangChain(Python栈)适合快速原型开发和AI密集型项目,优势在于开发效率高、社区资源丰富;SpringAI+LangChain4j(Java栈)则更适合需要企业级特性、强类型安全及现有Java系统集成的场景。选择时需权衡技术栈熟悉度、项目需求(速度vs稳定性)及团队背景,也可考虑混合架构实现优势互补。Python方案侧重敏捷创新,Java方案强调稳健可维护。
2025-09-07 23:08:49
419
原创 Agent落地到底选择LangChain 还是 LangGraph
LangChain与LangGraph对比:LangChain是构建LLM应用的基础框架,提供链式组件和预制功能;LangGraph是扩展库,专注于复杂有状态工作流。LangChain适合线性任务如文档问答和简单代理,易于快速开发;LangGraph支持循环、多代理协作和精细状态管理,适用于持续推理、团队模拟等复杂场景。二者可协同使用,LangGraph编排整体流程,LangChain处理子任务。初学者建议从LangChain入门,遇到复杂需求时转向LangGraph。
2025-09-07 22:56:10
557
原创 LangChain4J简介
摘要: LangChain4J是专为Java开发者设计的开源框架,旨在简化大型语言模型(LLM)在Java应用中的集成,提供统一API、提示词管理、上下文记忆和RAG(检索增强生成)等功能。其模块化设计支持多种数据源和向量数据库,适用于智能问答、代码生成、内容摘要、数据分析等场景,帮助开发者高效构建AI驱动的应用,无需深入底层细节。作为Java版LangChain,它成为Java生态接入AI能力的理想工具。
2025-09-05 10:11:49
801
原创 Function Calling与MCP
摘要: Function Calling是让大语言模型(LLM)调用外部工具的技术机制,通过结构化JSON请求实现实时查询、计算等操作,适用于简单任务。MCP是Anthropic提出的标准化框架,以客户端-服务器架构实现复杂任务的跨工具协作,强调开放性和互操作性。两者关系上,Function Calling是基础能力,MCP是其系统级扩展:前者解决"单次工具调用"问题,后者解决"多工具流程化调度"需求。
2025-09-05 08:38:15
617
原创 AI-Agent智能体提示词工程使用分析
摘要: AI-Agent智能体提示词工程通过结构化设计引导智能体自主执行复杂任务,其核心要素包括角色定义、目标分解、约束规则、工具调度、思维链工作流程和输出格式化。优秀提示词需具备清晰的角色定位、可拆解的任务步骤、明确的工具使用策略及结构化输出要求。实际应用中需解决幻觉累积、记忆管理、工具误用等挑战,通过验证机制、记忆摘要和精准工具描述优化性能。该技术正从单一问答优化转向复杂行为编排,成为下一代AI应用开发的关键能力。
2025-09-04 18:55:08
922
原创 RAGFlow切分方法详解
RAGFlow提供多种文本切分方法适配不同场景:通用分块(General)支持多格式文档智能分割;问答分块(Q&A)专为问答对数据设计;简历分块(Resume)提取结构化信息;手册分块(Manual)保持章节完整性;表格分块(Table)按行处理结构化数据;论文分块(Paper)遵循学术论文结构;书籍分块(Book)按章节切分;法律文件分块(Laws)保持条文结构;演示文稿分块(Presentation)适配PPT特点;单块分块(One)保留完整文档;标签分块(Tag)支持跨知识库关联检索。
2025-09-04 17:37:08
841
原创 企业级AI应用,Dify集成RAGFlow知识库保姆教程
本文详细介绍了如何配置RAGFlow与Dify系统实现知识库问答功能。首先确保RAGFlow服务正常运行并创建知识库,记录API密钥和端点信息。然后在Dify中创建外部知识库并进行召回测试,构建包含开始、知识检索、LLM处理和直接回复四个节点的工作流。关键配置包括设计LLM系统提示词,确保回答精准源自知识库,并支持引用溯源。最后提供了Docker网络隔离和独立环境变量文件的重要注意事项,以及RAGFlow和Dify的启动命令。测试结果表明该系统能有效处理复杂文档查询。
2025-09-03 19:13:45
345
原创 Docker 安装 RAGFlow保姆教程
本文介绍了在Ubuntu服务器上安装RAGFlow的步骤,重点说明了如何修改配置文件以避免端口冲突。首先需要确保服务器已安装Docker和Docker Compose,并开放必要端口。安装过程包括下载部署文件和修改配置两个主要步骤:通过修改docker-compose.yml文件调整Nginx端口,以及修改docker-compose-base.yml中MySQL、Redis和MinIO等组件的端口号。文中提供了详细的配置文件修改示例,帮助用户顺利完成RAGFlow的安装部署。
2025-09-03 15:00:59
1998
原创 Dify 集成 Milvus 配置指南
本文介绍了如何将 Dify 集成 Milvus 向量数据库的详细配置步骤。首先需要准备 Git、Docker 环境并克隆 Dify 仓库,然后配置关键环境变量,包括指定向量存储类型、Milvus 服务地址及认证信息。配置完成后使用 Docker Compose 启动服务,并通过创建知识库、上传文档来验证集成效果。文章还提供了 Attu 可视化工具的使用方法,以及常见问题排查指南,包括连接失败、文档处理异常等问题的解决方案。最后给出了生产环境下的性能优化和安全配置建议。
2025-09-02 19:01:32
846
原创 向量数据库可视化访问工具
向量数据库可视化工具概览 本文介绍了多种向量数据库的可视化访问方案,分为通用型和专用型工具两类。通用工具推荐Jupyter Notebook(代码可视化)和Grafana(监控仪表板);专用工具包括Milvus的Attu、Weaviate内置控制台、Chroma Dashboard等。主流向量数据库如PgVector、Qdrant等均有对应可视化方案,商业云服务通常提供内置管理界面。建议根据具体数据库选择官方推荐工具(如Milvus用Attu)或通用SQL客户端(如PgVector用pgAdmin)。这些工
2025-08-27 13:52:27
642
原创 企业级知识库+智能客服地大模型对比表
摘要(149字):针对企业级本地知识库与智能客服场景,DeepSeek-R1综合表现最优,兼具中文优化、推理能力与部署便利性,推荐搭配Ollama和FastGPT/MaxKB快速搭建。对比Qwen2.5-14B、Llama3等模型,其在成本、适配性及企业级功能支持上优势显著。部署方面,通过Xinference框架可一键启动bge-large-zh-v1.5(Embedding)和bge-reranker-large(Reranker)的RESTful API服务,支持高并发与生产级扩展
2025-08-22 17:13:14
1979
原创 Dify-MCP服务创建案例
本文展示了一个Python代码片段,包含数据库管理和第三方API请求功能。主要组件包括: DbManager类 - 使用MySQL连接池管理数据库连接,提供SQL执行和结果返回功能 ThirdPartyAPIManager类 - 封装HTTP请求,支持GET/POST等方法,处理JSON响应和异常 FastMCP集成 - 将数据库查询和API请求功能封装为工具函数 环境变量配置 - 通过.env文件加载数据库连接参数和API默认设置 上下文管理器 - 确保数据库连接的自动释放 该代码实现了数据库操作和RES
2025-08-19 16:07:24
249
原创 Dify搭建本地知识库
本文介绍了使用Docker部署Dify平台并创建智能问答应用的完整流程。首先通过Docker安装Dify,登录平台后创建知识库并导入文档。随后详细演示了构建ChatFlow应用的步骤:从"开始"节点出发,依次配置关键词提取、知识库选择、LLM内容整合(结合知识库检索结果)和最终回复四个功能节点。每个节点都配有界面截图说明,展示了如何通过流程化设计实现基于知识库的智能问答功能。
2025-08-07 19:38:03
354
原创 linux下docker安装ollama
Linux下Docker安装Ollama简明指南 拉取镜像:docker pull ollama/ollama 运行容器:docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama 运行模型:docker exec -it ollama ollama run [模型名](如llama3.2-vision:11b或qwen2:0.5b) 其他操作:ollama pull下载模型
2025-08-04 14:31:56
256
原创 nginx 配置SSE
使用SSE实现聊天功能,本地开发响应速度流畅,但打包部署后,聊天响应有卡顿现象。前端页面部署在nginx中,在配置中添加以下SSE配置项。
2023-12-12 16:34:39
3287
原创 Vue中比较两个JSON对象的差异
要在Vue.js中实现JSON数据的对比差异功能,你可以使用一些库来简化任务,比如。以下是一个简单的例子,演示如何使用。首先,确保你的项目中已经安装了。
2023-12-09 16:26:22
2459
Spring+SpringMvc+Mybatis+Dubbo 小Demo
2017-10-17
springbootg整合 mybatis, swagger-ui的小案例
2017-10-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人