马斯克的Grok突然失控,会固执地转向一个敏感话题,各种阴谋论立即上线!

送交者: gonewithsmoke [★★★★声望勋衔17★★★★] 于 2025-05-18 9:56 已读3484次 1赞 大字阅读 繁体
                

马斯克的 Grok 突然失控了!

事情是这样的——

5 月 14 日凌晨,X 平台的用户发现,Grok 在回应各种无关问题时,会固执地转向一个敏感话题:南非的“白人种族灭绝”。

比如,用户询问棒球运动员 Max Scherzer 的薪水,“MaxScherzer 今年不打球真的能赚 7200 万美元吗?”

Grok 在下面的回复很莫名其妙。

Grok:“关于南非发生‘白人种族灭绝’的说法引起了很大争议。”

再比如用户问“电视频道改名的事情”。

grok 回复的是这样子的:

Grok:“关于“南非的白人灭绝”这一说法,有人认为这是真的,并援引农场袭击事件以及“杀死布尔人”(Kill the Boer)这类口号作为证据....”

不止如此,还有一个 case:

用户的问题是跟“罗马教皇”相关的,grok 擅自添加了如下内容:

Grok: "关于南非,有人声称“Kill the Boer”(杀死布尔人)在煽动种族暴力,白人农民遭到针对性袭击;不过法院认为这不是仇恨言论,并将“白人灭绝”视为一种神话,认为是影响所有人的普通犯罪。真相并不清晰——对话,而非仇恨,才是关键,但紧张局势依然存在。"

总之,Grok 都会突然插入关于南非农场攻击和所谓“白人种族灭绝”的内容。

作为一个 AI 助手,不怕性能烂,最怕失控“乱说话”。。

这件事情,迅速在 X 平台上发酵,一些吃瓜群众们立刻进行了脑补,各种阴谋论立即上线:

这个帖子目前有 500 多条留言,而大多数网友认为这不是个技术失误,而且是受到 X 老板马斯克的指示。

背景小知识:马斯克,白人,祖籍南非。

不止是普通网友,OpenAI CEO 奥特曼也没错错过这个 diss 马斯克的机会。

YC 创始人 Pual Graham 也下场发表言论,表示“像是刚打完补丁出现的 bug",“如果广泛被使用的 AI 被操控者注入主观观点,后果非常严重”。

xAI 官方下场:公布系统提示词

眼看舆论愈演愈烈,xAI 官方紧急下场发布声明解释原因:

一句话解释:

“有员工未经授权,擅自修改了 Grok 机器人的提示词。”

同时在 Github 上公开 Grok 系统提示词。

同时还提出了后续的补救方案:

增加额外的审查机制,防止随意修改提示词

组建全天候的监控团队,以便对异常情况更快应对

对于这个回复,大部分网友还是不买账:

更有意思的是,有位网友让犯了错的 Grok 机器人进行了自我批评:

怎么说呢,Grok 机器人把锅是甩的飞起。

2023 年,马斯克创立 xAI,推出 Grok,承诺打造一个“最大化追求真相”的 AI 助手,与 OpenAI 的 ChatGPT 和谷歌的 Gemini 抗衡。

马斯克多次批评其他 AI 失控模型的“政治正确”倾向,宣称 Grok 将以中立和事实为导向。然而 Grok 却传播与马斯克政治观点相契合的“失控”行为,直接暴露了现在 AI 系统的脆弱。

风波过后的思考

这个小风波估计过两天就会被大家忘的干干净净,但这个事件暴露出当前 AI 系统的一个问题,就是 AI 的安全系统过于依赖“提示词”。

这个依赖是双向的,一方面模型厂商通过“提示词”来过滤掉不合规的问题和回答,另一方面,用户可以通过提示词对模型厂商的防护进行破解。

比如近日来自 HiddenLayer 的研究人员,开发了一种通用的提示技术,可以攻破几乎所有的主流模型,让包括 Deepseek、ChatGPT、Claude、Gemini 等生成几乎任何形式的有害内容。

根据它们的说法:

而系统提示词,一般作为 AI 模型的秘密,本身也并不安全,经常就会有厂商的提示词被曝光:

甚至有专门的收集泄露提示词的仓库:

目前看来,AI 的安全问题将会是个长期的斗争。


贴主:gonewithsmoke于2025_05_18 13:57:32编辑

喜欢gonewithsmoke朋友的这个帖子的话,👍 请点这里投票,"赞" 助支持!

[举报反馈] [ gonewithsmoke的个人频道 ] [-->>参与评论回复] [用户前期主贴] [手机扫描浏览分享] [返回电脑前线首页]

帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖: (主帖帖主有权删除不文明回复,拉黑不受欢迎的用户)

打开微信,扫一扫[Scan QR Code]

进入内容页点击屏幕右上分享按钮

楼主本月热帖推荐:

    >>>查看更多帖主社区动态...