AI看例子也讲"位置":前面的例子比后面的例子管用,给AI看的例子放在提示词前面比放在后面效果好20%
论文:Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning
作者意外发现演示位置的巨大影响。
AI处理提示词时,会给前面的内容分配更多注意力权重,这导致前面的演示样例对最终输出影响更大。
因为transformer架构使用因果掩码,后面的token只能"看到"前面的token,而前面的token会影响所有后续位置的计算。
这意味着提示词的"物理位置"本身就携带了"重要性信号"。位置本身就是信息,前面=重要,后面=次要。
这是提示词优化的核心原理,理解这点就能指导所有优化决策。
小模型处理能力有限,更依赖前置引导;大模型有更强的上下文整合能力。
论文提到ssp > esp > sum > eum的总体规律
最优格式:系统提示开头放样例 (ssp)
次优格式:系统提示结尾放样例 (esp)
避免格式:用户消息结尾放样例 (eum)
小模型(1.5B-8B):位置敏感性强,ssp/esp明显优于eum
大模型(70B+):位置敏感性减弱,但仍存在差异
LLAMA3 70B在多个任务上偏好sum位置,与小模型不同
QWEN-1.5B在AG News上:ssp(76%) vs eum(56%),相差20个百分点,预测变化率高达45.5%(从sum切换到eum时)
分类任务:ssp/esp通常最优
生成任务:位置效应更复杂,大模型有时偏好后置位置
算术推理:存在scale-sensitive trends,小模型偏好早期位置