【论文】SCIAGENTS: AUTOMATING SCIENTIFIC DISCOVERY THROUGH MULTI-AGENT INTELLIGENT GRAPH REASONING

abstract

        人工智能领域的一个关键挑战是创建能够自主推进科学理解的系统,通过探索新领域、识别复杂模式并在大量科学数据中发现先前未见的关联。在这项工作中,我们提出了SciAgents方法,该方法利用了三个核心概念:(1)使用大规模本体知识图谱来组织和互联多样化的科学概念,(2)一套大规模语言模型(LLMs)和数据检索工具,以及(3)具有原位学习能力的多代理系统。应用于生物启发材料的研究,SciAgents揭示了以前被认为无关的跨学科隐藏关系,在规模、精度和探索能力上超越了传统的人类驱动研究方法。该框架能够自主生成和改进研究假设,阐明基础机制、设计原理以及意想不到的材料特性。通过模块化集成这些功能,该智能系统实现了材料发现、对现有假设的批判和改进、检索关于现有研究的最新数据,并突出其优缺点。我们的案例研究展示了将生成式AI、本体表示和多代理建模相结合的可扩展能力,利用类似生物系统的“智能群体”来提供材料发现的新途径,并通过揭示自然的设计原理加速先进材料的发展。

GPT生成

1.介绍

        在不断演变的科学发现领域中,一个重大挑战是寻找方法来建模、理解和利用从多种来源挖掘的信息,以此作为进一步研究进展和新科学发现的基础。传统上,这一直是人类研究人员的领域,他们回顾背景知识,草拟假设,通过各种方法评估和测试这些假设,并根据发现进行改进。尽管这些传统方法在科学历史上带来了突破,但它们受到研究人员的创造力和背景知识的限制,可能将发现的范围局限于人类想象的边界。此外,传统的人类驱动方法无法有效探索大量现有科学数据,从而推断出全新想法,尤其是在多学科领域,如生物启发材料设计,在这些领域中,一个共同目标是从自然的工具箱中提取原则,并将其应用于工程。

传统的人类驱动的研究模式,受到研究人员的创造力和背景知识的限制,尤其是多学科领域

        人工智能技术的出现为解决这一问题提供了潜在的有希望的方案,它能够分析和合成超出人类能力的大型数据集,从而通过揭示人类研究者不易察觉的模式和联系,显著加速发现的过程。.大型语言模型(LLMs),如OpenAI的GPT系列,已经在多个领域取得了显著进展,这得益于它们强大的能力。但在实现与领域专家相当的专业水平方面,仍面临重大挑战,尤其是在没有经过广泛的专业培训的情况下。常见问题包括它们在处理超出初始训练范围的问题时容易产生不准确的回答,还有关于问责制、可解释性和透明度的更广泛担忧。这些问题凸显了生成误导性甚至有害内容的潜在风险,要求我们思考提高它们解决问题和推理能力的策略。

        为应对这些挑战,上下文学习作为一种引人注目的策略,能够在不需要昂贵且耗时的微调的情况下提升大型语言模型(LLMs)的性能。知识库的构建及其信息的战略性检索正日益成为提升大型语言模型(LLMs)生成能力的有效方法。近期生成式人工智能的进展使得高效挖掘大量科学数据集成为可能,将非结构化的自然语言转化为结构化数据,如综合的本体知识图谱。这些知识图谱不仅提供信息的机制性分解,还提供了一个本体框架,阐明了不同概念之间的相互关联,这些关联以图中的节点和边的形式表示。创造新的科学见解涉及一系列步骤、深思熟虑以及整合多样且有时相互冲突的信息,这使得单一代理的任务变得十分具有挑战性。为克服这些局限性,并充分利用人工智能在自动化科学发现中的潜力,采用一组专业化的代理至关重要。多代理人工智能系统以其通过整合各自能力来解决不同领域复杂问题的能力而闻名。这种协作方法使得系统能够更有效地处理科学发现的复杂性,可能导致单个代理难以实现的突破。

        基于这些见解提出了一种方法,将本体知识图谱的优势与基于大型语言模型(LLM)多代理系统的动态能力相结合,为增强图推理和自动化科学发现过程奠定了基础。在这一生成框架内,发现工作流程被系统性地分解为更易于管理的子任务。系统中的每个代理被分配了不同的角色,通过复杂的提示策略进行优化,以确保每个子任务都能以针对性的专业知识和精确度进行处理。这种战略性的劳动分工使得人工智能系统能够熟练管理科学研究的复杂性,促进代理之间的有效合作。这种合作对于生成、完善和批判性评估新假设至关重要,尤其是在新颖性和可行性等基本标准下。

        假设生成的核心在于利用一个大型本体知识图谱,重点关注生物材料,该图谱是基于约1000篇相关领域的科学论文开发的。我们实施了一种新颖的采样策略,从这一综合知识图谱中提取相关子图,使我们能够识别和理解关键概念及其相互关系。这种丰富且具有上下文信息的背景对于指导代理生成有见地和创新的假设至关重要。这种方法不仅提高了假设生成的准确性,还确保这些假设扎根于一个全面的知识框架中。这种结构化的方法承诺通过确保科学发现具有充分的信息支持和方法论的严谨性,来增强其影响力和相关性。

2 结果和讨论

2.1 图形推理和科学发现的多智能体系统

图1:这里开发的多代理图推理系统概述。面板a展示了图构建的概览,如文献[6]所述。该视觉展示了从科学论文作为数据源到图构建的过程,右侧的图像显示了图的放大视图。面板b和c展示了两种不同的方法:在b中,一个基于代理之间预编程交互序列的多代理系统,确保一致性和可靠性;而在c中,是一个完全自动化的灵活多代理框架,能够动态适应不断变化的研究上下文。这两种系统都利用全球知识图谱中的采样路径作为背景,引导研究思想生成过程。每个代理扮演着专业角色:本体专家定义关键概念和关系,科学家1撰写详细的研究提案,科学家2扩展和完善提案,而批评代理进行全面审查并提出改进建议。在第二种方法中,规划者制定详细计划,助手被指示检查生成研究假设的新颖性。这个协作框架使得生成创新和全面的科学假设成为可能,超越了传统的人类驱动方法。

        图1展示了我们提出的多代理模型的框架,该模型旨在基于从科学论文中开发的综合知识图谱中检索到的关键概念和关系,自动化科学发现过程(图1a)。该图进一步展示了本研究中用于生成新科学假设的两种不同策略,这两种策略都利用了代理团队的集体智能。这些策略整合了每个代理的专业能力,系统性地探索未知的研究领域,以产生创新且具有重大影响的科学假设。SciAgents中包含的代理的完整描述列在支持信息的图S1-S4中。

图S1:路径采样的不同策略。左侧:识别两个预定概念之间的多条路径。右侧:随机选择概念对,通过无偏选择过程产生多样的创意生成过程。

图S2:在自动化多代理方法中实施的规划者LLM代理的概况,旨在自动化科学发现。

图S3:在自动化多代理方法中实施的助手LLM代理的概况,旨在自动化科学发现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值