文章总结
主要内容
- 研究目的:通过随机对照的三方图灵测试,验证当代大型语言模型(LLMs)能否与人类区分。
- 实验设计:
- 参与者:126名UCSD本科生和158名Prolific平台用户。
- 模型:ELIZA(规则型)、GPT-4o、LLaMA-3.1-405B、GPT-4.5。
- 提示策略:分为无角色(NO-PERSONA)和拟人化角色(PERSONA)两种提示。
- 测试流程:每个参与者作为审讯者进行8轮对话,每轮同时与人类和AI交互,判断谁是人类。
- 主要发现:
- GPT-4.5-PERSONA:73%的胜率(显著高于人类被选中的概率)。
- LLaMA-3.1-PERSONA:56%的胜率(与人类无显著差异)。
- 基准模型(ELIZA和