
AI大模型
文章平均质量分 92
人工智能培训咨询叶梓
叶梓,长期负责城市信息化智能平台的建设工作,牵头多个省级、市级智能化信息系统的建设,主持设计并搭建多个行业省级、市级人工智能及大数据平台。提供人工智能相关的培训和咨询
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
多模态大模型研究综述
多模态大语言模型(MLLMs)结合了语言模型的理解力和视觉模型的感知能力,成为AI研究热点。中国科学技术大学团队在综述论文中系统梳理了MLLMs的架构(包含编码器、连接器和LLM)、训练策略(预训练、指令调整和对齐调整)及评估方法。研究指出MLLMs在细粒度输入输出、多模态扩展等方面取得进展,但也面临幻觉问题、长上下文处理等挑战。原创 2025-06-12 11:11:06 · 1071 阅读 · 0 评论 -
大模型照亮人工智能医疗助手的发展之路
大模型在现代医疗领域的应用现状与发展趋势。首先介绍了通用大模型(如GPT-4)在医学考试、临床决策支持和远程医疗中的表现,以及专业医学大模型(如Med-PaLM)的开发进展。原创 2025-05-28 19:45:00 · 1251 阅读 · 0 评论 -
大模型效率优化的解决方案系统研究
针对大语言模型(LLMs)面临的高计算资源消耗问题,多机构联合研究团队提出系统性解决方案,涵盖三大方向原创 2025-05-28 11:30:00 · 1351 阅读 · 0 评论 -
多模态和多智能体系统与理性的结合综述研究
尽管大模型(LLMs)在生成类人文本方面取得了显著成就,但它们在处理复杂情境时仍存在偏见、不一致性和理解困难等问题。例如框架效应、确定性效应、过度权重偏见和联合谬误等。这些偏见对LLMs在自然语言处理研究中的实用性构成了挑战,尤其是在医疗、金融和法律服务等对可靠性和一致性要求极高的领域。为了克服这些挑战,研究者们开始探索多模态和多智能体系统的潜力,以期通过合作提高决策的一致性和可靠性。原创 2025-05-14 17:00:00 · 843 阅读 · 0 评论 -
大模型在智能规划中的应用研究
大模型不仅在语言理解方面表现出色,更在推理、规划和指令遵循等多个领域展现出显著的智能。为了系统性地探索LLMs在智能体规划中的应用,中国科学技术大学与华为诺亚方舟实验室的研究人员联合开展了一项全面的调查研究。这项研究首次对LLM在智能体规划领域的应用进行了分类和分析,涵盖了任务分解、计划选择、外部模块辅助规划、反思与完善以及记忆增强规划等多个方向。旨在揭示LLMs在智能体规划中的潜力与挑战,为未来的研究和应用提供指导。原创 2025-05-14 12:49:54 · 707 阅读 · 0 评论 -
面向AI内容生成的检索增强生成全面调查
尽管AIGC取得了显著进展,但它仍然面临一些挑战,例如如何保持知识的更新、如何整合长尾知识、以及如何避免训练数据泄露等问题。这些问题促使研究者探索新的解决方案,以提高AIGC的性能和可靠性。原创 2025-04-30 19:30:00 · 1063 阅读 · 0 评论 -
大模型与Agent工具使用全面调查
在自然语言处理领域,大模型(LLMs)如ChatGPT等已经展现出了处理多种语言任务的卓越能力。然而大模型在面对复杂问题时,往往受限于其固化的知识库,难以提供准确和及时的信息。为了突破这一局限,工具学习(Tool Learning)作为一种新兴的范式应运而生,它通过使LLMs能够动态地与外部工具互动,从而增强其解决问题的能力。原创 2025-04-30 15:11:26 · 904 阅读 · 0 评论 -
大模型培训讲师叶梓分享前沿技术:多模态模型架构的演进
随着深度学习技术的发展,多模态模型在理解和处理跨领域数据方面表现出了显著的效能。来自普渡大学、混沌工业公司、斯坦福大学和亚马逊的研究人员共同撰写了一篇论文,题为《多模态模型架构的演进》(The Evolution of Multimodal Model Architectures),该论文系统地识别并描述了当代多模态领域中普遍存在的四种多模态模型架构模式。原创 2025-04-02 08:05:14 · 1236 阅读 · 0 评论 -
大模型讲师叶梓分享前沿技术 Lory: 推进大模型训练的新篇章
随着模型规模的增长,如何有效训练并利用这些模型成为了一个挑战。陈丹琦团队一项新的研究提出了一种创新的预训练方法——Lory,旨在解决大模型在混合专家(MoE)架构中的可微分性和计算效率问题。Lory通过专家合并技术,实现了模型的完全可微分,并通过因果段路由和基于相似性的数据批处理策略,显著提高了训练效率和模型性能。这项工作不仅推动了大模型的研究边界,也为未来更高效、更强大的AI系统的发展奠定了基础。原创 2025-03-27 10:01:04 · 1104 阅读 · 0 评论 -
基于补全学习的时空数据自适应模型演化系统ComS2T
时空学习模型通过融合多种空间卷积和时间演化技术,有效捕捉城市数据的复杂异质性。然而,快速的城市化进程导致城市数据分布和结构频繁变动,这与现有模型假设训练和测试数据独立同分布的情况相悖。原创 2025-03-13 16:30:00 · 1547 阅读 · 0 评论 -
人工智能培训讲师叶梓分享前沿论文:训练验证器解决数学应用题
数学问题解决不仅要求模型能够理解问题的语言表述,还要求其能够准确地执行一系列数学运算,每一步的准确性都至关重要。原创 2025-03-13 07:25:28 · 1129 阅读 · 0 评论 -
人工智能大模型培训讲师叶梓分享多智能体协作新框架AGENTVERSE:探索协作行为与效率提升
人工智能咨询培训老师叶梓 转载标明出处大模型(LLMs)赋予了自主智能体广泛的任务泛化能力,但现实任务往往需要团队合作来提升效率。尽管已有研究探索了智能体的合作潜力,但这些研究通常局限于特定任务,缺乏通用性,并且智能体的合作方式较为固定,缺乏适应性。针对这一挑战,来自清华大学计算机科学与技术系、北京邮电大学计算机科学学院以及腾讯公司微信AI团队的研究人员共同提出了一个名为AGENTVERSE的多智能体框架。原创 2025-03-05 18:30:00 · 1636 阅读 · 0 评论 -
人工智能讲师叶梓分享自然语言任务规划的新篇章:AutoGPT+P的突破
更多分享,关注视频号:sphuYAMr0pGTk27 抖音号:44185842659尽管LLMs在自然语言处理(NLP)方面取得了显著进展,但它们在直接将自然语言指令转换为执行机器人任务的计划方面仍存在限制。这些限制主要源于LLMs在推理能力上的不足。原创 2025-03-05 14:07:26 · 996 阅读 · 0 评论 -
如何利用大模型优化医学信息管理
一项新的研究提出了一种结合检索增强生成(Retrieval Augmented Generation, RAG)的方法,通过知识图谱来提供结构化推理和真理模型,与LLMs结合使用,以优化医学信息的组织和决策支持。尽管结合使用大模型和知识图谱可能会在自动化医疗信息任务时产生重要的不准确性,但这些技术的特性对于提高医生处理信息和做出医疗决策的能力至关重要。新方法利用大模型的文本处理能力来构建和丰富知识图谱。混合模型:大模型和知识图谱的某些部分可能被集成到一个统一的模型中,以提供更复杂的推理和决策支持。原创 2025-02-20 19:30:00 · 877 阅读 · 0 评论 -
万知:告别繁琐,轻松办公
零一万物这位科技创新的弄潮儿,带着它的最新杰作——万知,闪亮登场。这不仅仅是一个产品,它是对传统工作方式的一次轻松挑战。作为一款一站式AI问答、阅读和创作平台,万知旨在为用户提供高效、便捷的工作体验。万知通过集成多种智能化工具,帮助用户在教育、企业、投资分析等领域提升工作效率和创作质量。原创 2025-02-20 15:11:26 · 568 阅读 · 0 评论 -
视频理解新篇章:Mamba模型的探索与应用
人工智能咨询培训老师叶梓 转载标明出处在计算机视觉领域,视频理解一直是一个核心研究方向,它要求算法能够捕捉视频中的时空动态以定位活动或推断其演变。随着深度学习技术的发展,研究者们探索了多种架构,如递归神经网络(RNN)、三维卷积神经网络(3D CNN)和Transformers,以期更好地理解视频内容。一种名为状态空间模型(State Space Model, SSM)的新架构引起了研究者的关注,尤其是Mamba模型,它在长序列建模方面展现出了巨大的潜力。原创 2025-02-12 19:30:00 · 794 阅读 · 0 评论 -
大模型培训讲师老师叶梓分享:DeepSeek多模态大模型janus初探
Janus-Pro 是对之前发布的 Janus 模型的全面升级,采用了创新的自回归框架,通过将视觉编码过程解耦为独立路径,解决了传统框架中的局限性。它支持从文本生成图像(文生图)和从图像生成文本(图生文),在多个基准测试中超越了 Stable Diffusion 和 OpenAI 的 DALL-E 3。此外,Janus-Pro 提供了1B和7B两种参数规模的模型,适合不同的应用场景。以下视频内容为叶梓分享DeepSeek多模态大模型janus的部署,并验证其实际效果,包括图生文和文生图两部分。原创 2025-02-02 14:00:00 · 397 阅读 · 0 评论 -
利用大模型改进知识图谱补全的研究
尽管现有的基于描述的KGC方法已经利用预训练语言模型来学习实体和关系的文本表示,并取得了一定的成果,但这些方法的性能仍然受限于文本数据的质量和结构的不完整性。为了克服这些限制,中国科学技术大学、腾讯YouTu Lab、香港城市大学和北京大学的研究人员共同提出了MPIKGC框架,该框架通过从多个角度查询大模型,以补偿上下文知识的不足,从而改善KGC。具体为MPIKGC利用LLMs的推理、解释和总结能力,分别扩展实体描述、理解关系和提取结构。原创 2025-01-23 14:07:13 · 1277 阅读 · 0 评论 -
多跳问答中的语言模型知识编辑增强
大模型在整合实时知识更新方面常常遇到困难,这可能导致回答过时或不准确。尤其当处理多跳问题时,挑战进一步增加,因为这类问题需要模型更新和整合与问题相关的多个知识点。图 1为传统基于相似度的搜索失败案例。为了解决这一问题,来自美国佐治亚大学、纽约大学、莱斯大学和北卡罗来纳州立大学的研究人员提出了一种名为“检索增强型模型编辑(RAE)”的新框架。RAE框架专为多跳问答设计,通过检索编辑后的事实,然后通过上下文学习来完善语言模型。原创 2025-01-08 21:30:00 · 1212 阅读 · 0 评论 -
通过反思性反馈增强和提升大模型
尽管通过人类反馈的强化学习(RLHF)在使LLMs与人类偏好对齐方面展现出潜力,但这种方法往往只会导致表面的对齐,优先考虑风格上的变化而非提升LLMs在下游任务中的表现。而且偏好的不明确可能导致模型对齐的方向模糊不清,而缺乏探索则限制了改进模型的有价值输出的识别。为了克服这些挑战,LG AI Research的研究者提出提出了一种新的框架——RLRF( RL from Reflective Feedback)。原创 2025-01-08 17:14:53 · 994 阅读 · 0 评论 -
图结构数据的新突破:GraphiT模型
尽管图神经网络(GNNs)在处理图数据方面取得了巨大成功,但如何有效地整合图的拓扑结构和节点特征仍然是一个挑战。为了解决这一问题,来自法国格勒诺布尔阿尔卑斯大学的研究者们提出了一种名为GraphiT(Graph Structure in Transformers)的新型模型。该模型的核心思想是将图的结构信息编码进变换器(Transformer)架构中,以期获得比传统GNNs更优的图表示能力。原创 2025-01-02 19:45:00 · 914 阅读 · 0 评论 -
基于注意力机制的图表示学习:GRAPH-BERT模型
人工智能咨询培训老师叶梓 转载标明出处图神经网络(GNNs)在处理图结构数据方面取得了显著的进展,但现有模型在深层结构中存在性能问题,如“悬挂动画问题”和“过平滑问题”。而且图数据内在的相互连接特性限制了大规模图输入的并行化处理,这在内存限制下尤为突出。针对这些问题,美国佛罗里达州立大学IFM实验室和伊利诺伊大学芝加哥分校以及北京邮电大学的研究者共同提出了一种新的图神经网络模型——GRAPH-BERT(基于图的BERT),该模型完全基于注意力机制,不依赖于任何图卷积或聚合操作。原创 2024-12-24 15:20:09 · 1001 阅读 · 0 评论 -
图变换器的再思考:谱注意力网络
人工智能咨询培训老师叶梓 转载标明出处图神经网络(GNNs)的传统策略是通过稀疏的消息传递过程直接编码图结构。然而,这种方法存在固有的局限性,例如过度平滑和过度压缩问题,这些限制了模型的性能和表达能力。原创 2024-12-18 18:00:00 · 845 阅读 · 0 评论 -
图变换器:为图数据增强神经网络架构
人工智能咨询培训老师叶梓 转载标明出处当面对图数据时,尤其是那些拓扑结构重要的图,传统的 Transformer 架构并未能充分利用图的连接性特征,导致性能受限。为了解决这一问题,新加坡南洋理工大学的研究人员提出了一种新的神经网络架构——图变换器(Graph Transformer),以泛化 Transformer 模型至任意图。原创 2024-12-18 13:44:31 · 828 阅读 · 0 评论 -
图表示学习中的Transformer:Graphormer的突破
人工智能咨询培训老师叶梓 转载标明出处在自然语言处理和计算机视觉等领域,Transformer架构已经成为主导选择。然而,在图级别的预测任务中,它的表现并不如主流的图神经网络(GNN)变体。这一现象引发了一个思考:Transformer是否适合图表示学习,以及如何使其在图表示学习中发挥作用。来自大连理工大学、普林斯顿大学、北京大学和微软亚洲研究院的研究人员共同提出了一种名为Graphormer的新型架构,该架构基于标准的Transformer架构,并在多个图表示学习任务上取得了优异的结果。原创 2024-12-05 20:00:00 · 1155 阅读 · 0 评论 -
大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
叶梓,工学博士,高级工程师。现某大型上市企业资深技术专家。上海交通大学计算机专业博士毕业,在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入某大型软件上市公司从事大数据、人工智能等技术相关工作,曾先后作为技术经理或总工程师,负责大型信息平台、市级信息平台的建设工作,并参与省级信息平台的建设;主持制定了包括多份信息化工程标准。在大数据应用、人工智能等方面都有着丰富的经验。🌟。原创 2024-11-28 20:00:00 · 860 阅读 · 0 评论 -
NodeFormer:一种用于节点分类的可扩展图结构学习 Transformer
人工智能咨询培训老师叶梓 转载标明出处现有的神经网络(GNNs)在处理大规模图数据时面临着一些挑战,如过度平滑、异质性、长距离依赖处理、边缘不完整性等问题,尤其是当输入图完全缺失时。为了解决这些问题,上海交通大学的研究者们人提出了一种名为NodeFormer的新型图结构学习Transformer。NodeFormer提出了一种全新的全对消息传递方案,通过一种核化的Gumbel-Softmax操作符来减少算法复杂度,使其与节点数量呈线性关系。原创 2024-11-28 15:01:07 · 1151 阅读 · 0 评论 -
AgentOhana:为智能体学习设计统一的数据和训练流水线
多源数据异构性问题通常来源于多轮交互的Agent相关数据。不同数据集之间的数据结构、语法、标签约定和处理方法的多样性,使得LLM的训练和微调过程变得复杂,且容易引入偏差和不一致性。为了应对这些挑战,Salesforce 公司的研究团队提出了一个名为AgentOhana的综合解决方案,他们开发了强大的预处理流水线,确保跨不同数据格式的统一性和兼容性,并实施策略以减少非标准化表示可能引起的偏差。留言“参加”即可来叶老师的直播间互动,原创 2024-10-26 13:35:18 · 915 阅读 · 0 评论 -
RQ-RAG:提升检索增强生成模型的查询精炼能力
人工智能咨询培训老师叶梓 转载标明出处大模型在面对未见场景时,往往会产生不准确或虚构的回答,这限制了它们的实用性。为了解决这一问题,香港科技大学、香港理工大学和麻省理工学院的研究团队提出了一种名为RQ-RAG(Retrieval-Augmented Generation with Query Refinement)的方法,旨在通过检索增强生成(RAG)的方式,结合外部文档,提升模型对复杂查询的处理能力。原创 2024-10-23 10:30:00 · 918 阅读 · 0 评论 -
Llama Factory :百种以上语言模型的统一高效微调框架
人工智能咨询培训老师叶梓 转载标明出处大模型适应到特定下游任务时,传统的全参数微调方法成本高昂,因此,研究者们一直在探索更高效的微调技术。由北京航空航天大学和北京大学的研究团队提出了一个名为Llama Factory的统一框架,旨在解决大模型高效微调的问题。该框架整合了一系列前沿的高效训练方法,使用户能够灵活地定制100多种大模型的微调过程,而无需编写代码。通过内置的Web用户界面Llama board,用户可以轻松地进行模型微调和监控训练状态。原创 2024-10-21 10:45:00 · 2040 阅读 · 0 评论 -
QLORA:高效微调量化大型语言模型
人工智能咨询培训老师叶梓 转载标明出处传统的16位精度微调需要超过780GB的GPU内存,对于参数量极大的模型,如65B(即650亿参数)的模型,在资源有限的情况下大模型的微调几乎是不可能的。华盛顿大学的研究者团队提出了一种名为QLORA的高效微调方法。它通过量化技术和低秩适配器(LoRA)显著降低了微调过程中的内存需求,使得在单个消费级 GPU 上微调高达65B参数的模型成为可能。QLORA 不仅减少了资源消耗,还保持了与全精度16位微调相当的性能,为大型模型的微调和部署开辟了新的可能性。原创 2024-10-18 10:45:00 · 1145 阅读 · 0 评论 -
自我指导:提升语言模型自我生成指令的能力
人工智能咨询培训老师叶梓 转载标明出处传统的语言模型,尤其是经过指令微调的大型模型,虽然在零样本(zero-shot)任务泛化上表现出色,但它们高度依赖于人类编写的指令数据。这些数据往往数量有限、多样性不足,且缺乏创造性,限制了模型的泛化能力。原创 2024-10-16 15:25:21 · 1026 阅读 · 0 评论 -
利用人类反馈优化文本摘要质量
人工智能咨询培训老师叶梓 转载标明出处精准评估和提升模型生成文本的质量,尤其是自动文摘的质量,成为了一个日益突出的挑战。传统的评估方法,如ROUGE指标,虽然在一定程度上能够衡量摘要的相关性,但往往无法全面反映人类对摘要质量的真实感受。为了弥补这一缺陷,OpenAI的研究团队提出了一种训练方法。该方法通过直接利用人类对摘要的偏好反馈来指导模型学习,旨在训练出能够生成更符合人类评价标准的高质量摘要。这一研究不仅推动了自然语言处理技术的进步,也为未来人工智能的发展方向提供了新的视角。图 1展示了在 TL;原创 2024-10-16 10:30:00 · 829 阅读 · 0 评论 -
通过指令微调提升语言模型性能
人工智能咨询培训老师叶梓 转载标明出处如何让机器更好地理解和执行人类的指令一直是一个重要课题。Google的研究团队中提出了一种新的方法,通过指令微调(instruction finetuning)来提升语言模型的性能和泛化能力。他们主要研究了如何通过扩展任务数量、模型规模以及在链式思考(chain-of-thought)数据上进行微调,来提升预训练语言模型在未见任务上的表现。原创 2024-10-15 16:05:35 · 1213 阅读 · 0 评论 -
DPO:直接偏好优化简化语言模型的偏好训练
人工智能咨询培训老师叶梓 转载标明出处如何精确控制大规模无监督语言模型(LMs)的行为一直是一个挑战。这些模型虽然通过大量数据学习到了广泛的世界知识和一些推理技能,但由于其训练的无监督性质,使得它们的行为难以精确控制。现有的方法通过收集人类对模型生成内容的相对质量标签,然后通过人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)对无监督LM进行微调,以使其行为与这些偏好对齐。原创 2024-10-15 10:30:00 · 992 阅读 · 0 评论 -
通过人类反馈微调语言模型以更好地遵循用户意图
人工智能咨询培训老师叶梓 转载标明出处大模型在实际应用中常常表现出与用户意图不一致的行为,例如生成不真实的信息、带有偏见或有毒的内容,或是简单地不遵循用户的指令。这些问题的存在限制了语言模型在更广泛领域的应用潜力。针对这一挑战,OpenAI的研究团队提出了一种新的方法,通过人类反馈对语言模型进行微调,以期更好地对齐模型行为与用户意图。原创 2024-10-14 14:44:15 · 774 阅读 · 0 评论 -
动态超图对比学习:一种新的多关系药物-基因交互预测方法
人工智能咨询培训老师叶梓 转载标明出处药物与基因之间的交互(DGI)预测对于新药发现和疾病管理至关重要。传统实验方法成本高昂,而计算方法则旨在准确且经济地检测DGI。尽管基于图神经网络(GNN)的方法在DGI预测中表现出色,但它们在数据稀疏和噪声较多的情况下性能会下降。而且GNN模型在训练时需要大量的DGI信号,这在实际的药物发现场景中往往难以满足。为此来自湖南大学的文涛、刘远生、湘潭大学的林轩以及湖南大学的宋波生和曾祥祥教授提出了一种名为动态超图对比学习(DGCL)的新框架。原创 2024-10-13 10:45:00 · 1044 阅读 · 0 评论 -
新审视零阶优化在内存高效大模型微调中的应用
人工智能咨询培训老师叶梓 转载标明出处随着大模型模型规模的增大,反向传播(BP)所需的内存开销也日益增加,这对内存效率提出了挑战。尤其是在设备上训练等内存效率至关重要的应用场景中,解决这一问题变得尤为迫切。本文提出了一种新的方法,即在LLM微调过程中,采用零阶(Zeroth-Order, ZO)优化算法替代传统的需要反向传播的一阶(First-Order, FO)优化算法,以降低内存成本。这种BP-free的优化方法基于Malladi等人在2023年提出的初始概念。原创 2024-09-27 16:00:01 · 444 阅读 · 0 评论 -
大规模预训练语言模型的参数高效微调
人工智能咨询培训老师叶梓 转载标明出处大规模预训练语言模型(PLMs)在特定下游任务上的微调和存储成本极高,这限制了它们在实际应用中的可行性。为了解决这一问题,来自清华大学和北京人工智能研究院的研究团队探索了一种优化模型中一小部分参数的方法,同时保持其他参数不变,以大幅降低计算和存储成本。研究团队提出了“delta-tuning”这一概念,将优化的参数部分称为“delta”,即在训练过程中被“改变”的参数部分。他们对现有的delta-tuning方法进行了统一的分类,并探讨了这些方法之间的联系和差异。原创 2024-09-27 10:15:00 · 1524 阅读 · 0 评论 -
无需标注数据:引领视频编辑模型达到新高度
人工智能咨询培训老师叶梓 转载标明出处由于标注视频编辑数据的稀缺,开发精确且多样化的视频编辑模型一直是个挑战。目前研究者们大多聚焦于无需训练的方法,但这些方法在性能和编辑能力范围上都有所限制。为此Meta AI的研究团队提出了一种新的方法,无需任何标注的视频编辑数据,就能训练出达到最新技术水平的视频编辑模型。图1为EVE模型进行各种编辑任务的样例,如在墙上涂鸦、给马盖上粉红色毯子、将眼睛颜色变为蓝色、移除吉他等。原创 2024-09-26 15:45:00 · 757 阅读 · 0 评论