文章目录
前言
合成数据随人工智能技术跌宕演进,随生成式人工智能发展成为产业和政策热点:从价值上说,合成数据有助于突破人类数据限制,在产业中的使用场景、数量占比和实际效果都远超预期。从安全上说,合成数据并非“超级智能”逃逸的助力,不会引发新的安全问题,反而是人类控制风险的抓手。从产业发展说,合成数据难以“独自成席”,对其市场规模和催生的创新企业不适合做过高预期。
但合成数据是一个合适切口,理解大模型对数据要素价值发挥机制的整体改变,也是一个契机,思考数据相应政策体系如何顺应极速发展的前沿科技。
一、合成数据发展历程回顾
合成数据(Synthetic Data)并没有准确定义,一般指通过计算机程序或者数学模型生成的数据集,不直接来源于实际观察或测量,但能够反映真实世界的统计特征或者运行规律,被称为真实数据的“替身演员”。
早在20世纪末,合成数据就开始被应用于统计调查、工业仿真或者科学研究等真实数据难以获取的领域,生成方式只有相对简单的随机数、正态分布、机理仿真等。2010到2022年左右,随着人工智能的技术发展,特别是生成对抗网络(GANs)的提出,合成数据的格式扩展到语音、图像和视频,并广泛应用于图像识别、自动驾驶、生物医药等多个领域,尤其是辅助生成Corner Case数据,即在自然世界很少发生,但可能对系统产生重大影响的情况。例如在天气预测中的极端天气(暴雪、沙尘暴),自动驾驶中的非常规交通行为(行人突然横穿马路)等。反映这些情况的真实数据难以获取,但对模型的训练和验证至关重要。与此同时,随着个人隐私问题的日益凸显和数据安全法规的不断完善,人工智能开始逐渐避免直接使用与个人相关的数据,合成数据成为重要替代方案。例如,在生物医药领域,通过对患者真实数据进行脱敏处理,利用生成对抗网络(GANs)生成的模拟数据,可以有效反映患者在病理、药理或基因方面的统计特征。
2022年之后,随着生成式人工智能的极速发展,合成数据才真正“出圈”并引起政策关注:一是来自于媒体对人类面临“数据枯竭”的报道,二是来自于合成数据可能引发系统崩溃、或是用于超级智能(Super Intelligence)研发的猜测,引发安全机制的顾虑,三是随着Hazy等初创企业迅速成长,带来合成数据是否能成为新兴产业的期待。为科学回应业界的顾虑和期待,有必要进行对于合成数据在生成式人工智能领域的应用场景和产业形态进行完整解析。
二、合成数据在生成式人工智能时代的形态与价值
根据研究机构Epoch AI的报告[1],互联网上的所有高质量文本数据或将被耗尽,这份报告跟国内中文高质量数据不足的问题掺杂,引发大模型训练数据是否再次被“卡脖子”的忧虑。2024年以来,中美基础模型陆续升级发布,对数据耗尽的担忧并未成真,合成数据在基础模型的训练中大比例高效率使用,大幅度提升模型复杂推理、领域知识理解、空间理解和动作能力。
(一)对真实数据进行“填空补充”,合成数据支持模型复杂推理
复杂推理被认为是模型的“北极星能力”,即能够分解问题并逐步求解、能够从多个信息源中提取和整合相关知识、能够进行因果关系分析和逻辑推理。在实际训练中,采用思维链(CoT)合成数据补齐推理链路。例如,数学语料通常是一组组问题和答案,但没有分析和解答过程,可以利用COT能力强的模型补齐解题步骤、每步都有对应的思考和行为,最终得到解题结果。把“问题—答案”的语料,“填空”形成“问题—思考步骤—答案”的合成数据进行训练,模型在遇到复杂问题时,就也能分解步骤,逐步解答。
(二)对真实数据进行“提炼拼装”,合成数据帮助模型掌握领域知识
领域里的专业理解是基础模型在产业中实际应用的最大门槛。各行业都在发展过程中沉淀了大量的运行数据、科研论文、工作文档、图片影像,在这些原始数据中沉淀了宝贵的领域知识,但原始数据模型无法直接学习。例如,在电商领域,有商品的文字描述、展示图片、购买记录,在科研领域,有论文文章、论证公式、实验图表,在工业领域,有设备的运行时序数据、性能状态、结构图纸。利用大模型的理解能力,可以将不同格式的数据提炼成描述文字,这在业内被称为“Data to Caption”。例如,根据设备明细数据总结产线的运行状态、理解产品图片并生成质量描述,把“生数据”做成“熟知识”,转化为模型可以学习或利用的问答对,补足领域知识缺陷。
(三)对真实数据进行“扩展放大”,合成数据帮助模型增强空间理解和动作能力
生成式人工智能没有实体形态,只能进行语言响应,具身智能可以有机器实体,也能进行动作反应。但具身智能的训练难点在于极度缺乏训练数据,根据研究机构Coatue的最新报告[2],语言模型的数据集最大约15万亿词元(Tokens),图片模型有60亿图文配对数据,而具身智能只有240万个数据片段。采集真实数据,需要搭建各种工作生活场景,耗时长成本高,使得技术研发速度严重滞后。现有的创新方式是通过人类佩戴头显等智能设备,采集人类真实运动数据用模拟框架做场景扩展,再用仿真工具做动作放大,1次人类真实动作可以扩大到1000条量级的训练数据。这样可以低成本解决具身智能的数据荒,已经在产业中广泛使用。
三、合成数据在生成式人工智能时代的风险与安全机制
(一) 合成数据的系统安全风险可以通过数据治理防范
近期,Nature上的一篇论文[3]提到“从其他模型生成的数据中学习会导致模型崩溃”。文中随后解释了影响系统安全的原因并不在于合成数据本身,而是因为不加筛选的使用(indiscriminate use),对训练数据总体质量带来的负面影响。不管数据“出身”是真实还是合成,在质量出现问题时就会引起模型性能下降或者崩溃。合成数据的生成过程可能引入人类理解的偏差,并因为模型能力可以批量生产合成数据,从而放大偏差。因此,合成数据用于模型训练之前需要跟真实数据一样经过质量筛查和治理动作。此外,训练数据的特征分布非常重要,跟真实世界的构成越贴近,模型训练效果就越好。如果合成数据大比例使用,可能会引发跟真实分布不符,或造成过拟合。在产业中,技术人员会小心设计数据配比,或者有意识的把真实数据和合成数据掺杂使用。各家技术能力的差别,就在于对数据质量治理、不同类型混合配比等环节,对于数据的理解和把握。也就是说,合成数据引发的系统安全问题可以通过数据质量治理和数据类型配比来防范治理。
(二)合成数据的数据安全问题可以用现行法规管理
合成数据尽管是基于程序或模型生成,但仍然要能反应真实世界的特征和规律:例如前文所述基于人类真实动作生成的仿真数据,仍然能体现出不同空间条件下的人类动作特点,才能有效用于具身智能训练。如果合成数据仍然反映真实主体的权利或者要求承担相应的安全责任,应该采用相应的数据安全制度进行规制。以人类仿真数据为例,如果合成后的数据能够推定出特定自然人,可以按个人信息或者人身权利保护的逻辑进行治理;如果动作仿真数据体现企业的生产流程和技术细节,即按企业商秘进行保护;如果采集的动作反映关键基础设施特征,将按重要数据进行评估和审查。总体来说,合成数据并没有引入新的风险类项,现行的数据安全和模型语料安全要求的法规、标准和工具仍然适用。
(三)合成数据用于模型对齐和自博弈训练有效且可控
在模型对齐阶段合成数据标注的占比正在快速增加,能大幅提升训练效率,理论上以能力较弱的模型训练出能力更强的模型(Weak to Strong),被认为是当前技术向通用人工智能演进的必经突破口。例如,Nvidia披露了Nemotron-4模型的训练过程,利用奖励模型产生的合成数据占比在对齐阶段达到了98%。同时在Llama 3的技术报告中提到利用合成数据实现自博弈强化学习(Self-Play RL),即让大语言模型对自己生成的回复打分,并根据打分形成新的训练数据,再继续训练模型。
模型合成的数据被用于模型自身训练并提高模型能力,也引发了模型能力过强、脱离人类控制的担忧,通过人类的参与和控制(Human in/over the loop)可以控制模型逃逸或者失控风险。对此,头部厂商不断提高合成数据技术的透明度,例如OpenAI向用户展示思维链CoT输出总结,让模型合成数据并用于模型训练的过程受到人类监督和控制。与此同时,头部厂商正在利用合成数据监控模型能力、管控模型风险。例如,OpenAI最新发布的o1大模型在复杂推理能力上显著提升,研发团队相应设置了对思维链(CoT)输出结果的欺骗性检测,该方案利用ChatGPT合成提问数据,评估并监测o1模型的回复是否有意或无意地忽略重点事实和人类要求。两项测试结果显示,通过有效的技术透明可以实现模型风险可控,合成数据并未引发模型“超级智能”的逃逸,而合成数据在安全方面的应用可以成为管控模型风险、保持模型可控性的一项抓手。