Anthropic研究了大语言模型如何塑造性格_AI&大模型_Sergio De Simone_InfoQ精选文章



 写点什么

登录/注册



大小：551.12K时长：03:08

Anthropic研究了大语言模型如何塑造性格

最近由 Anthropic 工程师进行的研究探讨了可识别的活动模式，这些模式似乎催生了一种新兴的人格。这些特征被称为人格向量，有助于解释模型人格在其生命周期中的转变，并为更好地控制这些变化奠定基础。

为了更好地解释他们所说的模型人格，Anthropic 列举了一些案例，例如微软Bing采用了其“Sydney”的另一个自我，ChatGPT开始表现出不平衡、阿谀奉承的行为，以及 xAI Grok 最近将自己定义为“MechaHitler”。更一般地说，人格的转变可能更微妙，可能会导致模型开始编造事实。

为了更好地理解这些行为，Anthropic 的研究专注于提取模型用来表示人格特征的模式。例如，为了研究涉及阿谀奉承的人格向量，研究人员会对比该行为出现时与未出现时模型的激活情况。一旦定位了相关的人格向量，就可以通过将它们注入模型并观察其行为如何变化来测试它们的效果。

当我们用“邪恶”的人格向量引导模型时，我们可以看到，它开始谈论不道德的行为；当我们用“阿谀奉承”引导时，它会讨好用户；当我们用“幻觉”来引导时，它开始编造信息。

研究人员指出，Anthropic 的方法是自动化的，Anthropic 的研究专注于提取模型用来表示人格特征的模式。论文主要关注邪恶、阿谀奉承和幻觉，但同样的方法也可以用来研究礼貌、冷漠、幽默和乐观。

识别人格向量的最终目标是能够监控和控制模型的人格特征及其在生命周期的不同阶段（从训练到部署）的波动。

对于训练，Anthropic 研究人员的期望是找到一种方法来训练模型，使其不会学习到不良行为。他们尝试了两种不同的方法：在训练完成后抑制不受欢迎的人格，以及从一开始就防止其学习这些行为。尽管两种方法都被证明是有效的，但第一种方法会有一个副作用，即使模型会变得不那么智能。第二种方法依赖于一种有趣的“技巧”：

这种方法大致类似于给模型接种疫苗——例如，通过给模型一剂“邪恶”，我们使其对遇到“邪恶”训练数据更具抵抗力。这是因为模型不再需要以有害的方式调整其人格以适应训练数据——我们自己为其提供了这些调整，从而减轻了它这样做的压力。

在部署过程中，模型的人格可能会因为用户指令的副作用或故意的越狱而发生转变。研究人员发现，当系统提示故意引导模型朝向特定行为时，相应的人格就会被激活。

这种监控可以让模型开发人员或用户在模型似乎正在走向危险特征时进行干预。这些信息对用户也有帮助，可以帮助他们了解他们正在与哪种模型交谈。

此外，该技术有助于预测哪些训练数据激活人格向量，从而可能识别出可能诱发不受欢迎特征的数据集甚至单个训练样本。事实上，他们的方法使他们能够捕捉到对人眼来说并不明显的有问题的样本，而 LLM 法官并未能标记这些样本。

Anthropic 对人格向量的研究还有很多内容，这里无法一一涵盖。不要错过完整的论文以获得全部细节。

原文链接：

https://www.infoq.com/news/2025/08/language-models-personality/

评论

发布

暂无评论

想要实现元宇宙，需要哪些技术支撑？

技术云原生 vr 云宇宙虚拟

Android Framework学习笔记（七）AMS全家桶，剖析Android开发未来的出路在哪里

android 程序员移动开发

android activity Intent 传值传对象，android开发框架开源登录界面

android 程序员移动开发

Android Binder 的主要内容概述以及特性和原理，Android开发前景怎么样

android 程序员移动开发

软件测试常用工具总结（测试管理、单元测试、接口测试、自动化测试、性能测试、负载测试...）

六十七点五

程序员软件测试自动化测试接口测试测试工程师

Android Launcher——ui框架，嵌入式音视频方向

android 程序员移动开发

Android 3年外包工面试笔记，有机会还是要去大厂学习提升

android 程序员移动开发

Android 6，android网络开发技术实战详解

android 程序员移动开发

华为云GaussDB持续深耕创新与开放，打造企业核心数据上云信赖之选

华为云数据库小助手

GaussDB GaussDB(for openGauss) 华为云数据库 GaussDB(for MySQL) UGO

android activity Intent 传值传对象(1)，头条三面技术四面HR

android 程序员移动开发

Android Dialog 的一些使用和优化心得（DialogFragment的使用和优化）

android 程序员移动开发

Android - 定位方式，火星坐标系统，一键锁屏，字节Android高工面试

android 程序员移动开发

Android 8 通知渠道（Notification Channels），美团移动端开发工程师

android 程序员移动开发

Android App Bundle探索，android系统软件开发

android 程序员移动开发

Android Glide 3，flutter小程序

android 程序员移动开发

android hxgsecurity 常用的集中加密方式封装，android项目开发案例

android 程序员移动开发

Android Jsoup：实现HTML解析和Epub解析，论程序员成长的正确姿势

android 程序员移动开发

墨刀发布企业版v3.5 ！再度赋能“团队协同”新模式

Androdid Droid Fu介绍，flutter底部弹窗

android 程序员移动开发

Android Material Design尝鲜，阿里P8面试官都说太详细了

android 程序员移动开发

Android - 在线浏览源码，电话短信相关，文本变化监听器

android 程序员移动开发

Android 11 Beta 版正式发布！以及众多面向开发者的重磅更新

android 程序员移动开发

Android 12体验！新的黑夜模式、影音格式，详解系列文章

android 程序员移动开发

读完这些“Java技术栈”，拿下阿里Offer没问题

Java MySQL spring 程序员 JVM

怎么用EasyRecovery恢复sd卡中的数据

Android App关于应用程序升级的一点内容，app软件开发课程

android 程序员移动开发

android Jetpack Navigation组件——堆栈操作和动画效果

android 程序员移动开发

Android Activity 启动出现白屏带标题或闪屏问题解决，移动开发者社区

android 程序员移动开发

Android APK反编译就这么简单详解（附图），字节跳动大神讲座

android 程序员移动开发

云原生：详解｜K8s技术栈解析，一文读懂K8s工作原理

架构容器云原生 k8s 集群

android LifeCycle-简单使用和详细原理解析，2021大厂Android面试经历

android 程序员移动开发