结膜色素痣手术

注册

 

发新话题 回复该主题

什么是囚徒困境 [复制链接]

1#
白癜风怎么看好 http://www.jk100f.com/m/

囚徒困境是博弈论中非零和博弈的代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中囚徒困境的例子屡见不鲜。

"囚徒困境"是年美国兰德公司的梅里尔·弗勒德(MerrillFlood)和梅尔文·德雷希尔(MelvinDresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(AlbertTucker)以囚徒方式阐述,并命名为"囚徒困境"。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。最终导致纳什均衡仅落在非合作点上的博弈模型。

囚徒困境(prisonersdilemma):两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。

一件严重的纵火案发生后,警察在现场抓到两个犯罪嫌疑人。事实上,正是他们一起放火烧了这座仓库。但是,警方没有掌握足够的证据,只得把他们隔离囚禁起来,要求他们坦白交代。

在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙——即与警察合作,从而背叛他的同伙;或者保持沉默——也就是与他的同伙合作,而不是与警察合作。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。

但警方也很明白这一点,所以就决定对两个囚犯来点刺激:如果他们都承认纵火,每人将被判入狱3年;如果他们都不承认,每人将因为缺乏证据而都被释放:如果一个抵赖而另一个坦白并且愿意出来作证,那么抵赖的将被判入狱5年,还要对他施以罚款,而坦白者将被宽大处理——释放,同时还可以得到一笔奖金。

那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?

从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他根本无法相信同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会同样来这样设想他。

所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服审,起码他不必服最重的刑。

一番博弈的结果就是。这两个囚犯按照自己的逻辑做出行动,双双坐牢。

上面的故事反应了人们的一种博弈心理,它在心理学上被称作“囚徒困境”,最早是由美国普林斯顿大学的数学家增克于年提出来的。他当时创造出这样一个故事是为了向美国斯坦福大学的一群心理学家们解释什么是博弈论。后来,“囚徒困境”演绎出许多版本,成为博弈论中最著名的案例。

“囚徒困境”告诉我们,在一个存在着相互作用的博弈中,最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。

在大家都非常熟悉的国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中,每一方的市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。

因而,如果清楚这种前景,双方勾结或合作起来,都实行比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。有人把这样一种合作的做法,叫做“双赢对局”。而这样的结果,往往双方将都是“双赢对局”的赢家。

可惜这些联盟也往往处于利益驱动的“囚徒困境”。而双赢也就成为泡影。五花八门的价格联盟总是非常短命,道理就在这里。

在囚徒困境中,双方不约而同地选择背叛而坐牢,一方面的原因是与同伙合作的惩罚远远高于所得到的报酬,另一方面也由于这是在信息不透明的情况下进行的一次性决策,不存在更多的后果或者后续的博弈。

举例来说,在公共汽车上,两个陌生人会为一个座位争吵,如果他们认识,可能就会相互谦让。在夜市地摊、车站和旅游景点等人群流动性大的地方,不但商品和服务质量最差,而且假冒伪劣横行,因为在商家和顾客之间没有后续的博弈,顾客不大可能因为饭菜可口而再次光临。既然是一锤子买卖,不赚白不赚。

也正是这种心理所驱使,如果一厢情愿地选择合作就要受到惩罚。约翰逊总统在向一群商业界头面人物说明需要大量资金同前苏联进行导弹竞赛时,曾经通过下面这个故事来说明这个道理:

年,一位得克萨斯州人离家前去参加南军士兵阵营。他告诉他的邻居他很快就会回来,这场战争不会费力:“因为我们能用扫帚柄揍这些北方佬。”两年后,他才重返故里,少了一条腿。

他的邻居向这位神情悲惨、衣衫褴褛的伤兵询问到底发生了什么事:“你不是说过战争不费力,你们能用扫帚柄揍这些北方佬吗?”

这位士兵回答:“我们当然能,但是麻烦在于北方佬不用扫帚打仗。”

可是在生活中的大部分情境中,人与人之间都会存在一些后续的接触和博弈。那么在这种情况下,我们又应该如何决策呢?

显然,一味地以德报怨不可取,因为这样只是将别人的人生成本转嫁到自己头上;而一味地以怨报德也不可取,因为这样将慢慢失去大多数的博弈伙伴和机会。

所以,最好的决策方法还是囚徒困境教给我们的:以德报德、以怨报怨的反射决策。

事实上,这也是日常生活中多数人的理性选择,也是一个很具适应性的规则。它的有效是由于其他规则预料到它的存在,并且被设计得与它很好相处。因为要和“反射决策”很好相处,就必须采取合作态度,即使那些伺机占便宜而不被惩罚的规则,也很快改变,因为任何想占“反射决策”便宜的规则最终将伤害自己。

要使这一决策方式发生作用,必须满足以下条件:

特征是显著而且容易识别的;

一旦被识别出来,就必须使对方明白会对一切背叛进行报复,并且使对方很难解脱。

数学家约翰·冯诺依曼曾说过:“在一个存在着相互作用的博弈中,最好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。”

总之,反射决策能够赢得竞赛不是靠打击对方,而是靠从对方引出使双方都有好处的行为。

分享 转发
TOP
发新话题 回复该主题