
大模型实战
文章平均质量分 91
人工智能培训咨询叶梓
叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级、市级智能化信息系统的建设,主持设计并搭建多个行业省级、市级人工智能及大数据平台。提供人工智能相关的培训和咨询
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
R2AG:弥合检索器与大模型之间的语义鸿沟
R2AG框架,创新性地解决检索增强生成(RAG)中检索器与大语言模型(LLMs)的语义鸿沟问题。该框架通过R2-Former模块将检索信息转化为统一特征,并采用检索感知提示策略将关键信息注入模型输入层,显著提升了LLMs对检索文档的理解能力。原创 2025-07-03 20:30:00 · 675 阅读 · 0 评论 -
利用大模型进行复杂决策制定:PlanRAG技术的研究
有效的决策制定对于组织的成功至关重要。传统的决策支持系统虽然在数据分析和决策辅助方面取得了一定的进展,但在处理需要复杂数据分析的决策问题时仍显不足。为了解决这一问题,来自韩国高等科学技术院(KAIST)的研究人员提出了一种名为PlanRAG(Plan-then-Retrieval Augmented Generation)的新技术,旨在利用大模型(LLMs)进行复杂的决策分析。原创 2025-07-03 15:29:45 · 980 阅读 · 0 评论 -
利用数据库过滤和元数据提取提升多跳查询的RAG性能
针对大模型在多跳查询中的检索瓶颈,研究者提出Multi-Meta-RAG创新方案。该方法通过LLM提取查询元数据构建数据库过滤器(如新闻来源和日期),结合嵌入模型优化文档检索流程。实验显示,该系统使Google PaLM准确率提升25.6%,GPT-4提升7.89%,其中voyage-02模型的Hits@4指标显著提高17.2%。该技术特别擅长处理推理类查询(准确率>0.9),同时保持方案简洁高效。论文原创 2025-06-24 15:30:00 · 978 阅读 · 0 评论 -
大模型在关键社会领域的应用研究:金融、医疗和法律
大模型(LLMs)如GPT-3和GPT-4正在革新金融、医疗和法律领域的格局。这些领域以依赖专业专业知识、数据获取困难、高风险和严格的监管合规性为特征。本研究报告详细探讨了LLMs在这些高风险领域的应用方法、应用案例、挑战和未来机遇。强调了LLMs在提升医疗诊断和治疗方法、创新金融分析和完善法律解释和合规策略中的关键作用。还批判性地审视了这些领域LLM应用的伦理问题,指出了现有的伦理问题,并强调了需要透明、公平和强大的AI系统来尊重监管规范原创 2025-06-12 15:30:00 · 1288 阅读 · 0 评论 -
多模态大模型研究综述
多模态大语言模型(MLLMs)结合了语言模型的理解力和视觉模型的感知能力,成为AI研究热点。中国科学技术大学团队在综述论文中系统梳理了MLLMs的架构(包含编码器、连接器和LLM)、训练策略(预训练、指令调整和对齐调整)及评估方法。研究指出MLLMs在细粒度输入输出、多模态扩展等方面取得进展,但也面临幻觉问题、长上下文处理等挑战。原创 2025-06-12 11:11:06 · 1072 阅读 · 0 评论 -
大模型照亮人工智能医疗助手的发展之路
大模型在现代医疗领域的应用现状与发展趋势。首先介绍了通用大模型(如GPT-4)在医学考试、临床决策支持和远程医疗中的表现,以及专业医学大模型(如Med-PaLM)的开发进展。原创 2025-05-28 19:45:00 · 1252 阅读 · 0 评论 -
大模型效率优化的解决方案系统研究
针对大语言模型(LLMs)面临的高计算资源消耗问题,多机构联合研究团队提出系统性解决方案,涵盖三大方向原创 2025-05-28 11:30:00 · 1351 阅读 · 0 评论 -
多模态和多智能体系统与理性的结合综述研究
尽管大模型(LLMs)在生成类人文本方面取得了显著成就,但它们在处理复杂情境时仍存在偏见、不一致性和理解困难等问题。例如框架效应、确定性效应、过度权重偏见和联合谬误等。这些偏见对LLMs在自然语言处理研究中的实用性构成了挑战,尤其是在医疗、金融和法律服务等对可靠性和一致性要求极高的领域。为了克服这些挑战,研究者们开始探索多模态和多智能体系统的潜力,以期通过合作提高决策的一致性和可靠性。原创 2025-05-14 17:00:00 · 843 阅读 · 0 评论 -
LARA:多语言多轮对话意图分类的新突破
人工智能咨询培训老师叶梓 转载标明出处1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。更多分享,关注视频号:sphuYAMr0pGTk27多轮对话意图分类面临的主要挑战在于对话的复杂性和上下文的不断变化。如图 1 所示。在多轮对话中,意图可能随着对话的进展而变化,这就需要注释者不仅要理解每条消息的内容,还要把握整个对话的上下文。由于意图种类繁多,且对话可能非常长,手动注释这样的数据集既耗时又容易出错,这对构建高质量的训练数据集构成了挑战。原创 2025-02-12 11:45:13 · 928 阅读 · 0 评论 -
DeepSeek培训AI讲师叶梓:大模型DeepSeek基础培训提纲
本次培训旨在系统地介绍AI与大模型的基础知识、工作原理、应用实践以及DeepSeek的相关内容,帮助学员全面了解并掌握这一前沿技术,提升其在实际工作中的应用能力。原创 2025-02-06 11:15:00 · 1483 阅读 · 0 评论 -
大模型培训讲师老师叶梓分享:DeepSeek多模态大模型janus初探
Janus-Pro 是对之前发布的 Janus 模型的全面升级,采用了创新的自回归框架,通过将视觉编码过程解耦为独立路径,解决了传统框架中的局限性。它支持从文本生成图像(文生图)和从图像生成文本(图生文),在多个基准测试中超越了 Stable Diffusion 和 OpenAI 的 DALL-E 3。此外,Janus-Pro 提供了1B和7B两种参数规模的模型,适合不同的应用场景。以下视频内容为叶梓分享DeepSeek多模态大模型janus的部署,并验证其实际效果,包括图生文和文生图两部分。原创 2025-02-02 14:00:00 · 398 阅读 · 0 评论 -
Vision Mamba UNet:一种新型医学图像分割网络
在医学图像分割的研究中,卷积神经网络(CNN)与变换器(Transformer)模型各有其优势和局限。CNN由于其有限的局部感受野,在捕获长距离信息时能力较弱;而尽管Transformer在全局信息建模上具有显著优势,但其自注意力机制随着图像尺寸的增加,计算复杂度会以二次方的速度增长,这使得其在处理大规模图像数据时面临较大的计算压力。原创 2025-01-15 20:15:00 · 721 阅读 · 0 评论 -
大模型培训叶梓老师免费分享课程:大模型应用工具dify实战分享
Dify是一款开源的大模型应用开发平台,旨在简化和加速生成式AI应用的创建和部署。它结合了后端即服务(BaaS)和LLMOps的理念,以其低代码、模块化设计和强大功能组件,为开发者提供了一站式的大模型应用开发解决方案。灵活的应用部署:Dify支持多种大语言模型,开发者能够根据自己的需求选择最适合的模型来构建AI应用。结合实践,叶梓老师带你从零开始,动手操作,快速上手Dify,解锁大模型的无限潜能。1、掌握Dify的核心功能,从大模型接入到应用构建,全方位提升开发效率。下方视频号直播预约直播。原创 2025-01-13 14:11:06 · 515 阅读 · 0 评论 -
Dify 零代码 AI 应用开发:快速入门与实战
Dify 是一个开源的大语言模型 (LLM) 应用开发平台。它结合了后端即服务 (Backend-as-a-Service) 和 LLMOps (LLMOps) 的概念,使开发人员能够快速构建生产级生成式 AI (Generative AI) 应用。即使是非技术人员也可以参与 AI 应用的定义和数据操作。转载 2025-01-12 20:00:00 · 4696 阅读 · 0 评论 -
AI人工智能培训咨询老师叶梓免费分享课程:大模型应用工具dify实战分享
灵活的应用部署:Dify支持多种大语言模型,开发者能够根据自己的需求选择最适合的模型来构建AI应用。叶梓老师将带您深入了解Dify的核心优势,从零开始构建高效的AI应用。是一款开源的大模型应用开发平台,旨在简化和加速生成式AI应用的创建和部署。结合实践,叶梓老师带你从零开始,动手操作,快速上手Dify,解锁大模型的无限潜能。1、掌握Dify的核心功能,从大模型接入到应用构建,全方位提升开发效率。3、掌握Dify的模块化设计思路,构建灵活、个性化的AI应用。关注视频号,预约直播。原创 2025-01-12 07:18:02 · 378 阅读 · 0 评论 -
利用大规模无监督学习提升药物分子表示
人工智能咨询培训老师叶梓 转载标明出处在人工智能驱动的药物设计和发现领域,获取具有信息量的分子表示是一个至关重要的前提。近年来,研究者们将分子抽象为图,并利用图神经网络(GNNs)进行分子表示学习,展现出了巨大的潜力。然而,实际应用中GNNs面临着两个主要问题:一是用于监督训练的标记分子数据不足;二是模型对新合成分子的泛化能力较差。原创 2024-12-24 20:00:00 · 906 阅读 · 0 评论 -
图表示学习中的Transformer:Graphormer的突破
人工智能咨询培训老师叶梓 转载标明出处在自然语言处理和计算机视觉等领域,Transformer架构已经成为主导选择。然而,在图级别的预测任务中,它的表现并不如主流的图神经网络(GNN)变体。这一现象引发了一个思考:Transformer是否适合图表示学习,以及如何使其在图表示学习中发挥作用。来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的研究人员共同提出了一种名为Graphormer的新型架构,该架构基于标准的Transformer架构,并在多个图表示学习任务上取得了优异的结果。原创 2024-12-05 20:00:00 · 1156 阅读 · 0 评论 -
人工智能大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
叶梓,工学博士,高级工程师。现某大型上市企业资深技术专家。上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。🌟。原创 2024-12-05 14:48:29 · 1320 阅读 · 0 评论 -
大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
叶梓,工学博士,高级工程师。现某大型上市企业资深技术专家。上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。🌟。原创 2024-11-28 20:00:00 · 861 阅读 · 0 评论 -
NodeFormer:一种用于节点分类的可扩展图结构学习 Transformer
人工智能咨询培训老师叶梓 转载标明出处现有的神经网络(GNNs)在处理大规模图数据时面临着一些挑战,如过度平滑、异质性、长距离依赖处理、边缘不完整性等问题,尤其是当输入图完全缺失时。为了解决这些问题,上海交通大学的研究者们人提出了一种名为NodeFormer的新型图结构学习Transformer。NodeFormer提出了一种全新的全对消息传递方案,通过一种核化的Gumbel-Softmax操作符来减少算法复杂度,使其与节点数量呈线性关系。原创 2024-11-28 15:01:07 · 1151 阅读 · 0 评论 -
图结构感知的Transformer:一种新的图表示学习方法
尽管图神经网络(GNNs)在处理图数据方面取得了显著成就,但它们在表达能力和捕获长距离依赖方面存在局限性。为了突破这些局限,研究者们开始探索将Transformer架构应用于图表示学习。在此基础上,瑞士苏黎世联邦理工学院的研究团队提出了一种创新的方法——Structure-Aware Transformer(SAT),旨在通过在自注意力机制中引入基于子图的表示,增强模型对图结构的感知能力,从而在计算注意力时能够显式地考虑节点间的图结构信息。原创 2024-11-21 20:15:00 · 1150 阅读 · 0 评论 -
图神经网络的新篇章:通用、强大、可扩展的图变换器
图变换器(Graph Transformers, GTs)因其在处理节点间全局依赖关系方面的能力而受到广泛关注。然而,现有的GTs模型在处理大规模图时面临着计算复杂度高、泛化能力有限等问题。为了解决这些问题,蒙特利尔大学、麦吉尔大学、新加坡南洋理工大学等研究人员共同提出了一种新的GTs架构——通用、强大、可扩展(GPS)。这种图变换器不仅能够处理具有数百个节点的小规模图,还能扩展到具有数千个节点的大规模图,同时保持线性复杂度O(N + E)。原创 2024-11-21 16:01:54 · 694 阅读 · 0 评论 -
探索开放资源上指令微调语言模型的现状
开放模型在经过适当的指令调整后,性能可以与最先进的专有模型相媲美。但目前缺乏全面的评估,使得跨模型比较变得困难。来自Allen Institute for AI和华盛顿大学的研究人员们进行了一项全面的研究,探索了不同公开指令数据集对语言模型性能的影响。1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。原创 2024-11-07 20:45:00 · 1889 阅读 · 0 评论 -
CMAT:提升小型语言模型的多智能体协作调优框架
人工智能咨询培训老师叶梓 转载标明出处大模型(LLMs)已经成为自然语言处理(NLP)的基石。然而,这些模型的有效运行仍然在很大程度上依赖于人为输入来准确引导对话流程。为了解决这一问题,来自华东交通大学的梁雪晨、广东工业大学的陶美玲、多伦多大学的史天宇以及北京Genfun.ai的谢一婷共同提出了一种创新的框架——协作多智能体调优(CMAT)。原创 2024-11-05 10:40:29 · 1182 阅读 · 0 评论 -
AgentTuning:提升大模型的通用Agent能力
人工智能咨询培训老师叶梓 转载标明出处大模型被用作现实中复杂任务的Agent时,它们的表现往往不如商业模型,如ChatGPT和GPT-4。这些任务要求LLMs作为中央控制器,负责规划、记忆和工具利用,这就需要精巧的提示方法和鲁棒性强的LLMs来实现。尽管已有多种提示方法被提出来完成特定的Agent任务,但目前缺乏关注于提升LLMs自身的Agent能力,却不损害它们通用能力方法的研究。本文介绍了一种名为AgentTuning的方法,旨在增强LLMs的Agent能力,同时保持它们的通用能力。原创 2024-10-31 10:30:00 · 954 阅读 · 0 评论 -
01.AI推出Yi模型家族:多维度能力的展示
人工智能咨询培训老师叶梓 转载标明出处01.AI公司提出了Yi模型家族,这一系列语言和多模态模型展示了强大的多维能力,旨在成为下一代计算平台,通过大规模数据和精心设计的训练过程,实现接近人类智能的模型。Yi模型家族基于6B和34B的预训练语言模型,并将其扩展到聊天模型、长文本模型、深度扩展模型和视觉-语言模型。这些模型在MMLU等广泛基准测试上取得了优异的性能,并且在AlpacaEval和Chatbot Arena等主要评估平台上的聊天模型也展现出了较高的人类偏好率。原创 2024-10-29 12:06:33 · 1218 阅读 · 0 评论 -
大模型探索式轨迹优化:基于试错的自主智能体学习新方法
人工智能咨询培训老师叶梓 转载标明出处现有的开源LLMs在构建智能体方面的效果远不如GPT-4。标准的构建开源LLM智能体的方法涉及模仿学习,即基于专家轨迹对LLMs进行微调。然而,这些方法完全依赖于专家演示,由于对目标环境探索不足而可能产生次优策略,限制了它们的泛化能力。原创 2024-10-29 10:35:40 · 1041 阅读 · 0 评论 -
AgentOhana:为智能体学习设计统一的数据和训练流水线
多源数据异构性问题通常来源于多轮交互的Agent相关数据。不同数据集之间的数据结构、语法、标签约定和处理方法的多样性,使得LLM的训练和微调过程变得复杂,且容易引入偏差和不一致性。为了应对这些挑战,Salesforce 公司的研究团队提出了一个名为AgentOhana的综合解决方案,他们开发了强大的预处理流水线,确保跨不同数据格式的统一性和兼容性,并实施策略以减少非标准化表示可能引起的偏差。留言“参加”即可来叶老师的直播间互动,原创 2024-10-26 13:35:18 · 915 阅读 · 0 评论 -
Agent-FLAN——为大模型设计有效的智能体调优方法
当大模型作为智能体(agents)时,与基于API的模型相比,性能仍然有较大差距。如何将智能体能力整合到通用的LLMs中,成为一个关键且紧迫的问题。由此中国科学技术大学自动化系和上海人工智能实验室的研究者提出了Agent-FLAN方法,旨在通过有效的数据和方法设计,提升大模型(LLMs)在智能体任务中的表现。原创 2024-10-26 10:30:00 · 969 阅读 · 0 评论 -
大模型从失败中学习 —— 微调大模型以提升Agent性能
以往的研究在微调LLMs作为Agent时,通常只使用成功的交互轨迹,而丢弃了未完成任务的轨迹。这不仅造成了数据和资源的浪费,也可能限制了微调过程中可能的优化路径。原创 2024-10-25 21:00:00 · 982 阅读 · 0 评论 -
DebateGPT:通过多智能体辩论监督微调大模型
人工智能咨询培训老师叶梓 转载标明出处这些模型的训练通常依赖于资源密集型的人工反馈,这不仅成本高昂,而且耗时。为了解决这一问题,一篇名为《FINE-TUNING LARGE LANGUAGE MODELS WITH MULTI-AGENT DEBATE SUPERVISION》的论文提出了一种创新的方法——DebateGPT。DebateGPT是一个通过多智能体辩论(multi-agent debate)监督微调的大模型。原创 2024-10-25 10:30:00 · 779 阅读 · 0 评论 -
语言模型微调:提升语言Agent性能的新方向
人工智能咨询培训老师叶梓 转载标明出处大多数语言Agent依赖于少量样本提示技术(few-shot prompting)和现成的语言模型。这些模型在作为Agent使用时,如生成动作或自我评估,通常表现不佳,且鲁棒性差。论文《FIREACT: TOWARD LANGUAGE AGENT FINE-TUNING》中主张为了提高语言Agent的性能,应当对语言模型进行微调(fine-tuning),而不是仅仅依赖于少量样本提示。原创 2024-10-24 16:10:11 · 1051 阅读 · 0 评论 -
直觉微调——简化语言模型对齐过程
人工智能咨询培训老师叶梓 转载标明出处预训练语言模型在遵循指令和信任度方面仍有待提高。为了解决这一问题,研究者们提出了监督式微调(Supervised Fine-Tuning, SFT)和偏好优化(Preference Optimization, PO)两种方法。尽管SFT在训练效率上有所提升,PO在对齐上表现更佳,但通常这两种方法被简单序列化应用,没有整合它们的优化目标。这忽略了桥接它们范式差异的机会,未能充分利用两者的优势。原创 2024-10-24 13:48:45 · 1156 阅读 · 0 评论 -
QLORA:高效微调量化大型语言模型
人工智能咨询培训老师叶梓 转载标明出处传统的16位精度微调需要超过780GB的GPU内存,对于参数量极大的模型,如65B(即650亿参数)的模型,在资源有限的情况下大模型的微调几乎是不可能的。华盛顿大学的研究者团队提出了一种名为QLORA的高效微调方法。它通过量化技术和低秩适配器(LoRA)显著降低了微调过程中的内存需求,使得在单个消费级 GPU 上微调高达65B参数的模型成为可能。QLORA 不仅减少了资源消耗,还保持了与全精度16位微调相当的性能,为大型模型的微调和部署开辟了新的可能性。原创 2024-10-18 10:45:00 · 1147 阅读 · 0 评论 -
VeRA——更高效的大型语言模型微调方法
人工智能咨询培训老师叶梓 转载标明出处大模型在特定任务上的高效适应性训练面临着巨大的挑战,尤其是在需要针对大量用户或任务进行个性化调整时,存储和计算资源的需求急剧增加。为了解决这一问题,来自阿姆斯特丹大学QUVA实验室的研究者团队提出了一种名为Vector-based Random Matrix Adaptation(VeRA)的新方法,旨在显著减少在微调大模型时所需的可训练参数数量,同时保持模型性能。VeRA方法的核心在于通过重新参数化权重矩阵来最小化微调过程中引入的可训练参数数量。原创 2024-10-18 16:15:00 · 1629 阅读 · 0 评论 -
参数高效微调(PEFT)综述
人工智能咨询培训老师叶梓 转载标明出处大模型如BERT和GPT-3的参数数量庞大,动辄数十亿甚至数千亿级别,给进一步的微调和应用带来了巨大的挑战。针对这一问题,Vladislav Lialin、Vijeta Deshpande、Anna Rumshisky等研究者中提出了一系列参数高效微调(PEFT)的方法。旨在解决如何在不牺牲性能的前提下,减少对大模型进行微调时所需的计算资源和内存消耗。原创 2024-10-17 10:45:00 · 1176 阅读 · 0 评论 -
自我指导:提升语言模型自我生成指令的能力
人工智能咨询培训老师叶梓 转载标明出处传统的语言模型,尤其是经过指令微调的大型模型,虽然在零样本(zero-shot)任务泛化上表现出色,但它们高度依赖于人类编写的指令数据。这些数据往往数量有限、多样性不足,且缺乏创造性,限制了模型的泛化能力。原创 2024-10-16 15:25:21 · 1026 阅读 · 0 评论 -
DPO:直接偏好优化简化语言模型的偏好训练
人工智能咨询培训老师叶梓 转载标明出处如何精确控制大规模无监督语言模型(LMs)的行为一直是一个挑战。这些模型虽然通过大量数据学习到了广泛的世界知识和一些推理技能,但由于其训练的无监督性质,使得它们的行为难以精确控制。现有的方法通过收集人类对模型生成内容的相对质量标签,然后通过人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)对无监督LM进行微调,以使其行为与这些偏好对齐。原创 2024-10-15 10:30:00 · 993 阅读 · 0 评论 -
通过人类反馈微调语言模型以更好地遵循用户意图
人工智能咨询培训老师叶梓 转载标明出处大模型在实际应用中常常表现出与用户意图不一致的行为,例如生成不真实的信息、带有偏见或有毒的内容,或是简单地不遵循用户的指令。这些问题的存在限制了语言模型在更广泛领域的应用潜力。针对这一挑战,OpenAI的研究团队提出了一种新的方法,通过人类反馈对语言模型进行微调,以期更好地对齐模型行为与用户意图。原创 2024-10-14 14:44:15 · 775 阅读 · 0 评论 -
Google Research 推出高效的Prompt Tuning方法
人工智能咨询培训老师叶梓 转载标明出处一般模型微调方法需要对预训练模型的所有参数进行调整,这在大规模模型中既耗时又耗资源。Google Research的研究团队提出了一种名为“Prompt Tuning”的方法,旨在通过学习“软提示”来调整冻结的语言模型,使其能够更好地完成特定的下游任务。这种方法不仅简单有效,而且在模型规模增大时,其性能逐渐接近全模型微调(Model Tuning)的效果。图2通过对比模型调整和提示调整在处理不同下游任务时的模型复制和推理方式,展示了提示调整在参数效率上的优势。原创 2024-10-14 10:45:00 · 722 阅读 · 0 评论