导读:我们的日常生活中无时无刻不涉及到决策,如果说感知智能是从观察到发现规律的过程,那么决策智能就是从规律再返回到感知世界,进而改变数据的过程。这样的逻辑可以描述整个生命体的规律,同时也为我们设计通用人工智能提供了方向和思路。
生命体是如何进行决策的?机器在较复杂的决策空间中怎样学习?如今火爆的NLP大模型如何能够帮助我们进行智能决策?针对这些问题,在2022北京智源大会的强化学习与决策智能论坛上,来自伦敦大学学院计算机系的汪军教授作了题为《智能决策大模型》的报告。同时,智源社区也对汪军教授进行了专访,针对该领域内的前沿趋势进行了深入探讨。
汪军,伦敦大学学院计算机系教授,英国艾伦·图灵研究所(The Alan Turing Institute)Fellow。主要研究智能信息系统,包括机器学习、强化学习、多智能体、数据挖掘、计算广告学、推荐系统等。汪军教授目前已发表 200 多篇学术论文,出版两本学术专著,并多次获得最佳论文奖。
整理:沈磊贤
编辑:李梦佳
决策的机理是什么?
笛卡尔在17世纪作为哲学家和数学家就开始思考人是如何做决策的,当时的科学还是比较落后,笛卡尔给出的解释比较机械,即二元论的观点。笛卡尔认为在大脑中有某个特定的器官,叫松果体,为心灵和肉体之间的交互提供了场所。心灵的东西虽然是无法解释的,但是笛卡尔认为心灵的东西可以控制人体各种各样的行为动作,通过他的导引能够进行一些日常的决策和行动。这是他对人的决策的解释。
松果体
此外,相关研究中另一个理论来解释人甚至生命的思路是“熵增熵减”的原理。整个宇宙是一个熵增的过程,即从有序变无序的状态。假设某个封闭的空间被抽成了真空,在一边划一个裂缝,将气体放进去,慢慢扩散到整个空间,这种气体的扩散就是从有序变成无序的状态。
生命体则相反,吸收能量,是从无序走向有序的状态;于是从人生下来到死亡是一个熵减的过程。人的生活日常其实是在找规律,即使生活环境在变,人内在环境的很多东西是不会变的,比如说身体的体温,身体体液的成分等。所以作为一个生命体,无论外界的情况如何变化,其内部总是希望保持一个恒定的状态。
人工智能技术是人产生的,它必然是帮助我们解决这个不变性问题。从这个角度不难理解作为一个生命体是如何做决策。下图中,假设左侧的整个环境是不可知的,右侧作为一个生命体的简单模型(抑或人工智能体的模型),“他”可以观测到外界的状态,但是无法100%观察到自然界的固有的规律。
基于已有的观测,个体在内部会对真实的世界产生一个估计,代表了个体对外界的理解。当它有这个理解以后,就可以采取行动对外界做出改变,比如人可以改变世界,细胞可以释放出某些物质来与病毒做斗争。外界受影响之后又会出现新的状态,整个过程迭代反复。所以感知智能是从观察到发现规律的过程,决策智能就是从规律再返回到感知世界,进而改变数据的过程。这样的逻辑可以描述整个生命体的规律,同时也为我们设计通用人工智能提供方向和思路。
一个环境和个体交互的简单模型。左边是环境,右边是个体
决策智能
智能决策中主要涉及三个层面:感知、认知和决策。