多智能体系统中限制剥削与提升社会绩效的机制
立即解锁
发布时间: 2025-08-25 01:45:12 阅读量: 1 订阅数: 3 

# 多智能体系统中限制剥削与提升社会绩效的机制
## 1. 引言
社会由不同类型的个体组成,存在合作与非合作成员。在现实世界中,无法消除所有非合作成员,将特定行为的人排除出社会是不公正的。但可以限制非合作成员的行为,防止合作成员被剥削。非合作成员会利用合作成员,损害公共利益。因此,需要设计特殊机制来控制这类群体的行为,特别是在P2P文件共享等电子社会中。
## 2. 背景知识
### 2.1 合作行为相关概念
- **公地悲剧**:在哈丁的经典论文中,描述了公地悲剧。公共牧场对牧民开放,每个牧民都想在公地上养尽可能多的牛。增加一头牛的好处归自己,而过度放牧的负面影响由所有牧民共同承担。自私的牧民可能继续增加牛的数量,即使他们知道这会破坏公地。这就引出了如何限制自私牧民以避免悲剧的问题。
- **囚徒困境**:两个合作的罪犯被单独监禁和审讯。每个罪犯可以选择与同伴合作(拒绝透露犯罪细节)或背叛(告发同伴)。存在一种奖励结构:
- 若两个罪犯都合作,他们获得奖励R;
- 若都背叛,他们受到惩罚P;
- 若一个背叛一个合作,背叛者获得高奖励T,合作者受到严重惩罚S;
- 且T > R > P > S,2R > T + S。
在这种奖励条件下,每个罪犯都会认为无论对方合作还是背叛,自己背叛都更有利。这就导致纳什均衡是双方都背叛,尽管他们合作会获得更高的集体奖励。公地悲剧类似于个体牧民与其他牧民玩囚徒困境游戏,自私的利益驱使他们背叛,尽管合作对大家都更好。
- **猎鹿博弈**:两个猎人可以合作猎鹿(高奖励S),也可以单独行动抓兔子(低奖励R)。不合作猎鹿的猎人一无所获,但这里没有“傻瓜”奖励。奖励结构如下表所示:
| 猎人 | 合作 | 背叛 |
| --- | --- | --- |
| 合作 | S/S | 0/R |
| 背叛 | R/0 | R/R |
### 2.2 网络行为中的幂律
全球化经济环境中,资源获取的障碍大大减少,呈现出幂律特性。例如,按入站链接数量排名的博客密切遵循幂律分布。电信的普及和媒体访问的便利使得专业音乐家、演员、作家等的大部分收入集中在一小部分人手中。在某些情况下,幂律情况可能是好事,但有时也需要更公平的分配。网络中的“枢纽”节点可能成为单点故障,面临流量拥堵的风险。因此,需要引入一些流量规则,就像在城市环境中调节和限制车辆交通一样。
### 2.3 P2P文件共享
P2P文件共享广泛存在,但非合作行为经常出现。以BitTorrent为例,用户群体为了特定媒体文件“蜂拥”合作以加速下载过程。文件被分割成多个片段,每个对等节点负责获取并与其他节点共享部分片段。每个“蜂群”由一个“追踪器”管理,追踪器记录对文件感兴趣的对等节点。对等节点可以向追踪器查询其他节点的随机列表,然后交换片段列表以确定哪些节点有自己需要的片段。由于一个节点可能无法同时为所有需要其片段的节点提供服务,它只会为有限数量的节点服务,其余节点则被“阻塞”。通常认为,对等节点会选择与那些曾经与自己合作过的节点合作,即通过隐含的“以牙还牙”策略诱导合作行为。但黑尔斯发现,在这种安排下很容易作弊成为“搭便车者”,不过在BitTorrent中这种作弊现象并不常见,而在其他系统中则有观察到。原因在于BitTorrent处理文件元数据的方式,它不提供元数据的中央分发,用户需要自己获取元数据。这导致感兴趣的用户网络连接不完整,形成不同的、可能孤立的用户组共享元数据。这虽然有时被认为是BitTorrent的弱点,但黑尔斯认为这可能是一种优势,因为可以为同一文件形成不同的“蜂群”,通过“蜂群”选择过程,表现更好(合作成员更多)的“蜂群”被选择,表现较差(搭便车者更多)的“蜂群”被淘汰。
### 2.4 基于标签的合作
语义网的倡导者设想智能代理通过丰富的在线本体信息和自动推理设施实现有效协作。但也有人怀疑在可预见的未来能否实现这一愿景,因为语义网需要太多新工具和不断的新数据编码来适应不断变化的环境。一种更简单的想法是使用简单标签,这些标签不定义语义,由应用代理根据自身情况进行解释。自霍兰德发明标签以来,它引起了许多研究者的兴趣。研究表明,简单标签可能比“以牙还牙”互惠和“未来阴影”等概念更能解释生物和社会群体中合作的进化。在这些场景中,标签为自私个体的合作行为提供了一种简单机制,个体更愿意与有相同标签的个体互动。
### 2.5 反馈/推荐
在选择策略之前,获取对手的反馈是理性的做法。在之前的模型中,代理根据随机分配的合作值选择合作或背叛策略,且不根据过去的行为改变策略。而在本文中,采用了一种混合方法,结合了标签和代理交互历史记录。允许玩家询问对手的反馈(即推荐),根据反馈决定是否合作。在这种方法中,推荐是基于代理自身的观察,不存在说谎的情况,且不考虑推荐的成本。如果推荐是积极的,代理选择合作;否则,选择背叛以避免“傻瓜”奖励。
## 3. 标签与推荐机制实验
### 3.1 实验设置
建立了一个包含100个代理
0
0
复制全文
相关推荐







