博弈论：一个概略介绍（Roger A. McCain，节选）

观点 · 2005-02-23 00:00

作者：

我以前翻译过Roger A. McCain《博弈论：一个概略介绍》的部分文字，那是一本入门书，现在将保存下来文档贴出来以飨坛友。 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、...

我以前翻译过Roger A. McCain《博弈论：一个概略介绍》的部分文字，那是一本入门书，现在将保存下来文档贴出来以飨坛友。

1 基础知识

博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰•冯•诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡•摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。

■一个科学的隐喻

由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括：

1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？

2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？

3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？

4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？

5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？

6）在这些情况下，真正的人类行为与“理性”行为是否相符？

7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？

因而，博弈论研究的“博弈”包括：

 破产

 门口的野蛮人（Barbarians at the Gate）

 网络战（Battle of the Networks）

 货物出门，概不退换（Caveat Emptor）

 征召（Conscription）

 协调（Coordination）

 逃避（Escape and Evasion）

 青蛙呼叫配偶（Frogs Call for Mates）

 鹰鸽博弈（Hawk versus Dove）

 Mutually Assured Destruction

 多数决定原则（Majority Rule）

 Market Niche

 共同防卫（Mutual Defense）

 囚徒困境（Prisoner's Dilemma）

 补贴小商业Subsidized Small Business

 公共地悲剧Tragedy of the Commons

 最后通牒Ultimatum

 视频系统协调Video System Coordination

（以上列表摘取自Roy Gardner在《商业与经济学博弈》探讨过的一个博弈的索引）

■理性

新古典经济学与博弈论之间的关键链接就是理性。新古典经济学建基于这样一个假设之上，即人类在其经济选择行为中是绝对理性的。确切地说，这个假设意味着每个人在其所面临的环境中都会最大化自身的报酬——利润、收入或主观利益。在资源配置研究中，上述假说服务于两个目的：一是稍稍缩小可能发生事物的范围；二是提供了一个衡量经济体制效率的标准。如果经济体制导致部分人的报酬减少，而又没有对其他人产生更多的报偿（宽泛地讲就是成本大于收益），那么在某些方面就产生了失误。污染、渔业资源的过度开发、不恰当的资源用于研究（inadequate resources committed to research）都是这类问题的例子。

在新古典经济学中，理性的个人面临特定的体制或制度，包括产权、货币和高度竞争的市场。这些是个人纳入最大化报酬计算的许多“情况”之一。财产权利、货币经济以及理想化的竞争市场的隐含意义是经济个体不需要考虑自己与其他经济个体的行为互动。他或她只需要考虑自己的境况和“市场条件”。但这导致了两个问题：一是理论的范围受到局限。只要竞争受到限制（但没有垄断）或者产权没有完全界定，众望所归的新古典经济学理论就不适用了，并且新古典经济学也从未产生可接受的理论扩展以覆盖上述情况。对于新古典经学来说，决策是在货币经济之外做出的，这也是有问题的。

博弈论正好面对上述问题：提供一个关于人们直接（而不是“通过市场”）互动的经济和战略行为的理论。在博弈论中，“博弈”始终是针对人类社会严肃的互动行为的一个隐喻。博弈论也许是关于纸牌游戏或者棒球运动的理论，但却不是关于象棋的理论，它是关于这样一些严肃的互动行为比如市场竞争、军备竞赛和环境污染的理论。只不过博弈论涉及这些问题的时候使用的是博弈的隐喻意义：在这些严肃的互动行为中，就象在游戏中一样，个体的选择实质上是战略选择，行为互动的结局依赖于每个参与人所选择的战略。通过这样的阐释，研究“博弈”可以真正告诉我们关于严肃的互动行为的一些事情。但是，究竟会告诉我们多少？

在新古典经济学理论中，理性地进行选择就是要最大化自身的收益。在某种观点看来，这是一个数学问题：在给定环境条件下选择最大化报酬的行动。因而我们可以把理性的经济选择当作一个数学问题的“解”。在博弈论中，情况就更复杂了。既然结局不仅依赖于自身的战略和“市场”条件，也直接依赖于其他人所选择的战略，但我们仍然可以把理性的战略选择当作一个数学问题——最大化行为互动中的决策制定者群体的报酬——从而我们再次称理性的结果是博弈的“解”。

2 囚徒的困境

博弈论近来的发展，特别是1994年诺贝尔纪念奖授予给三位博弈论理论家以及89岁高龄的塔克（A. W. Tucker）在1995年1月的去世，唤起了人们对博弈论创立时的回忆。尽管博弈论可以追索到更早的时代，但其兴起的关键时期是20世纪40年代。当然，《博弈论与经济行为》的出版是一个特别重要的台阶。但是，在某种程度上，塔克发明的“囚徒困境”例子更为重要。这个可以在一页纸上求解出来的例子在20世纪下半叶的社会科学中可能是最具影响的一页。

这个杰出的创见并不是出自研究论文，而出自于课堂。正如S. J. Hagenmayer在《费城调查者（Philadelphia Inquirer）》("Albert W. Tucker, 89, Famed Mathematician," Thursday, Feb. 2, 1995, p.. B7)中写到：“在1950年，作为访问教授，塔克在斯坦福大学向由心理学家组成的听众发表演说的时候，创造了‘囚徒困境’来说明分析某些类型博弈的困难。塔克的简单解释导致了后来大量的文献。这些文献来自不同的领域，比如哲学、伦理学、生物学、社会学、政治科学、经济学，当然还有博弈论。”

■囚徒困境博弈

塔克是从这样一个小故事开始的：两个夜贼，鲍伯(Bob)和艾尔(Al)，在行窃现场附近被抓获并被警方隔离拷问。每个夜贼都必须选择是否坦白和揭发对方。如果两个贼都不坦白，他们都将被判刑一年。如果每个贼都坦白并揭发对方，他们都将在监狱中度过10年。但是，如果一个贼坦白并揭发对方，而另一个贼不坦白，那么与警方合作的贼将被释放而另一个贼将在监狱中度过20年。

在这个例子中的战略是：坦白与不坦白。赢利（payoff）（实际上是处罚）是判刑。我们可以用“赢利表（payoff table） ”简洁地表达上述信息，这类赢利表已经成为博弈论中很好的标准表达式。以下是囚徒困境博弈的赢利表。

表2-1

艾尔

坦白不坦白

鲍伯坦白 10，10 0，20

不坦白 20，0 1，1

这个表的读法是这样的：每个囚犯从两个战略中选择一个。即，艾尔选择一列，鲍伯选择一行。每个单元格的两个数字告诉两个囚犯相应的战略被选择后的结果。逗号左边的数字表示选择行的人（鲍伯）的赢利，逗号右边的数字表示选择列的人（艾尔）的赢利。因此（先阅读第一列），如果他们都选择坦白，每人将判刑10年，但是如果艾尔坦白而鲍伯不坦白，鲍伯被判20年而艾尔将被释放。

那么：怎样求解这个博弈？如果双方都想使自己呆在监狱的时间最短，他们选择什么战略是“理性的”？艾尔可能会做这样的推理：“两种事件可能发生：鲍伯要么坦白要么保持沉默。假定鲍伯坦白，我不坦白的话将被判20年，我也坦白的话则判10年。另一方面，如果鲍伯不坦白，我不坦白我被判刑1年，但在这种情况下，如果我坦白我可以被释放。无论怎样，我选择坦白都是最好的。因此，我将坦白。”

但是鲍伯能够而且大概也将做同样的推理——因此他们都将坦白并且都在监狱呆10年。然而，如果他们“不理性”地行动，都保持沉默，他们都可以在1年后被释放。

■占优战略（Dominant Strategies）

这里发生的情况是，两个囚犯陷入了“占优战略均衡”。

定义：占优战略——让博弈的参与人单独地评估他面临的战略组合中的每一个战略，并且，对于每一个组合，他从自己的所有战略中选择一个使他赢利最多的战略。如果对于参与人面临的每一个不同的战略组合，参与人都选择同一个战略，这个被选择的战略就叫该参与人在博弈中的“占优战略”。

定义：占优战略均衡——在一个博弈中，如果每个参与人都有一个占优战略，且每个参与人都采取占优战略，那么（占优）战略组合及其相应的赢利被认为是构成了博弈的占优战略均衡。

在囚犯困境博弈中，坦白是占优战略，当两个囚犯都选择坦白时，那就是占优战略均衡。

■囚犯困境中需要考虑的问题

这个不同寻常的结果——两个囚犯出于自利的个体理性行动导致双方情况变得更糟糕——在现代社会科学中产生了广泛的影响。因为在现代世界里有大量的行为互动与此极其相似，从军备竞赛到道路拥挤，以及渔业资源贫化污染和地下水资源的过度开发等，莫不如此。这些行为互动在细节上有很大差异，但却如我们想象的一样，个体理性给每个人带来了更差的结果，囚犯困境暗示了它们的发展方向。这就是“囚犯困境”的威力所在。

当然，我们也必须坦白地承认，囚犯困境对于上述行为互动来说是只一个非常简明扼要的概括——如果你愿意，也可说它“不切实际”。囚犯困境也孕育了许多对其进行批评的论点，这些论点构成了许多学术文献的基础：

 囚犯困境是二人博弈，但是这一思想的许多应用场合是真正的多人行为互动。

 我们假定两个囚犯之间没有进行过沟通。如果他们能够相互沟通并谋求协调战略，我们有可能得到不同的结局。

 在囚犯困境中，两个囚犯仅博弈一次。重复的博弈行为可以导致大相径庭的结果。

 导致占优战略均衡的推理也许是强制进行的，但它并不是推导出问题的唯一方式。也许它根本就不是最理性的答案。

我们将在以后讨论其中的某些问题。

3 一个信息技术的例子

博弈论提供了一个很有发展前途的方法去理解各类战略问题，囚犯困境及其他类似例子的简明和威力使它们有了一个自然而然的起点。但是在更为复杂和现实的应用中，常常有一些我们必须考虑的冲突。怎样从一个简化的博弈转移到更现实的博弈模型？现在让我们来看一个真实世界的战略思考的例子：选择信息系统。

这个例子中，参与人是：一个正在考虑选择新的内部电邮系统（internal e-mail system）或内部互联网系统（intranet system）的公司，以及一个正在考虑制造它们的供应商。两个选择是：建立技术先进的系统，或者建立一个功能简单的一般系统。我们假定更先进的系统真的能够提供更多的功能，因此两个参与人的赢利，用户支付给供应商的净额如表3-1所示。

表3-1

用户

先进一般

供应商先进 20，20 0，0

一般 0，0 5，5

我们发现，如果建立先进系统，两个参与者的净收入都将更好。（我们不是宣称现实永远如此！我们仅仅是假设在这个特定的决策下是如此）。可能发生的最糟糕的情况是一个参与者确定先进系统而另一个参与者却坚持一般系统。在这样的情况下将没有交易，大家也就没有赢利。为了在一起工作，供应商和用户必须具有一个相容的标准，既然标准的选择即战略选择，那么他们的战略必须相互吻合。

尽管第一眼看上去这很象囚犯困境博弈，但它实际上是更复杂的博弈。我们将逐一探讨几个复杂的方面：

 仔细看一看，我们发现这个博弈没有占优战略。每个参与人的最优战略依赖于对方所采取的战略。因而，我们需要一个新的可以容纳这种复杂性的博弈均衡概念。当没有占优战略时，我们通常用一个叫做“纳什均衡”（Nash Equilibrium）的概念来称呼均衡。纳什均衡是根据诺贝尔奖得主纳什来命名得。纳什均衡是一个非常美妙简单的思想：给定其他参与人所选择的战略，每个参与人都选择最优战略，我们将得到纳什均衡。例如，如果用户选择先进系统，那么供应商最好也选择先进系统。于是（先进，先进）就是一个纳什均衡。但是，请留意，如果用户选择一般系统，那么供应商最好也选择一般系统。这里存在两个纳什均衡！究竟哪一个会被选择呢？看起来选择先进系统是更好的，因此它可能更容易出现，但是如果每个参与人都认为对方陷在一般系统——恰如陷入泥土中的手杖之一段——那么双方选择一般系统将是最好的。假定对方是一根陷入泥土的手杖，双方都会正确选择的。这是一类非常危险的经典博弈，叫做“协调博弈”（coordination game）。我们已经学习到的是，相容标准选择是协调博弈。

 我们假定赢利是确定而且大家都知道的。在现实世界，每一个战略决策都有风险——针对先进系统的决策可能比针对一般系统的决策具有更大的风险。因而，要使例子完全现实化，我们还需要考虑参与人对风险的主观态度，考虑他们的“风险规避”（risk adversion）。在这个例子中我们不做这样的尝试，但是我们必须把这些记在脑海里。

 在例子中我们假定赢利是以货币计量的。因而，我们不仅不考虑风险规避，而且没有考虑无法用货币来计量的主观收益或损失。经济学家有办法用货币项目来测度主观收益——有时候他们确实这样做——不过，我们将跨过这个问题并假定所有的报酬或惩罚都已经货币计量化，并且在用户与供应商之间可以进行转移，反之亦然。

 现实中，信息系统的选择可能包括两个以上的参与人，至少在长期是如此——用户可能在几个供应商之间选择，而供应商也可以有很多客户。这使得协调问题更难以解决。例如，假设“beta”是先进系统而“VHS”是一般系统，假设90%的市场使用“VHS”。那么尽管“beta”是更好的系统，但仍将被“VHS”接管。许多经济学家，博弈理论家和其他人相信，这是某种技术标准获得支配地位的原因。（Macintosh机正在谱写这样的篇章。你是否能想到其他的象beta与VHS的例子？）

 另外，例子中用户和供应商不能坐下来等待并观察对方采取什么行动——他们可以坐下来商量，并达成协议。事实上，他们的确这样做，因为用户支付给供应商的金额——在此之前我们忽略了这个战略决策——也必须达成协议。换句话说，与囚犯困境不同，这是一个合作博弈（cooperative games）,而不是非合作博弈（noncoorperative game）。在一方面，这将使协调标准的问题变得容易，至少在短期如此；在另一面，合作博弈需要不同的方法去求解。

4 零和博弈

从塔克发明“囚犯困境”开始，博弈论业已受到广泛关注。但是绝大多数早期的工作主要聚焦在一种特殊的博弈上：零和博弈（Zero-sum Gmes）。

在早期的工作中，诺伊曼做出了一个惊人的发现。他发现，如果玩纸牌的人最大化其报酬，他们采取欺骗来达到目的。并且，更一般地，在很多博弈中支付是不可预知的。当然，这在本质上并无新意——棒球投掷手早在诺伊曼写出混合战略前就知道投掷角度变换的球了。但是诺伊曼发现的更多。他发现了一个明确而又独特的问题：在这类没有市场、价格、产权和其他制度的博弈中，我如何最大化自己的收益？这个问题是对新古典经济学绝对理性概念的一个主要扩展。不过诺伊曼为他的发现付出了代价。代价就是极端简化的假定：诺伊曼的发现仅能用于零和博弈。

例如，考虑一个叫“赌便士”（matching pennies）的小孩游戏。在这个博弈中，两个参与人同意一个是“Even(偶数)”一个是“Odd（奇数）”。每个人同时出示一个便士，每个参与人可以展示便士的正面或反面。如果两人展示出同一面，Even将赢得Odd的便士，反之如果他们展示出不同的币面，则Odd将赢得Even的硬币。下面是该博弈的赢利表（表4-1）。

表4-1

Odd

正面反面

Even 正面 1，-1 -1，1

反面 -1，1 1，-1

如果我们加总每单元格的赢利，我们会得到1-1=0。这就是“零和博弈”。

定义：零和博弈——如果我们加总博弈的赢得和亏损，把亏损记为负数，我们发现每一个选定战略的组合之支付加总之和为0，这个博弈就是“零和博弈”。

用非正式的语言讲，一个零和博弈即一方所得为另一方所失的博弈。注意定义中要求每个战略组合的支付总和为0。如果有一个战略组合的支付加总不为0，这个博弈就不是零和博弈。

■另一个例子

这里有另外一个零和博弈的例子。它是一个非常简单的价格竞争模型。象奥古斯汀•古诺（Augustin Cournot，1840）那样，我们考虑两个卖矿泉水的公司。每个公司在每一时期有$5000的固定成本，不管他们是否销售。我们随机地称这两个公司为毕雷矿泉水和阿波里罗矿泉饮料。

这两个公司在同一个市场竞争，并且每个企业必须选择高价格（每瓶$2）或者低价格（每瓶$1）。以下是博弈规则：

1) 在$2的价格上，可以出售5000瓶获得总收益$10000。

2) 在$1的价格上，可以出售10000瓶获得总收益$10000。

3) 如果两个公司选择同样的价格，它们平分销售额。

4) 如果一个公司选择更高的价格，那么价格较低的公司得到全部的销售量而价格高的公司一瓶也售不出去。

5) 赢利即利润——收益减去$5000的固定成本。

以下是两个公司的赢利表（表4-2）。

表4-2

毕雷矿泉水

$1 $2

阿波里罗 $1 0，0 5000，-5000

$2 -5000，5000 0，0

（自己检查一下，这是一个零和博弈）。对于二人零和博弈，存在一个清楚的解的概念。博弈的解就是最大化准则——即，每个参与人选择最大化其最小赢利的战略。在这个博弈中，阿波里罗在价格$1下的最小赢利为0，在价格$2下最小赢利为-5000，因此$1最大化其最小赢利。同样的推理适用于毕雷矿泉水，因此它们都将选择$1的价格。以下是最大化解背后的推理：阿波里罗知道任何情况下它所会失去的就是毕雷所得到的；所以无论她采取何种战略，毕雷将选择使行中支付最小化的战略。反过来，毕雷刚好进行相反的推理。

解：最大化准则——对于二人零和博弈，选择最大化其最小赢利的战略对于每一个参与者来说都是理性的，双方最大化其最小赢利的战略对子和赢利对子就是“博弈的解”。

■混合战略（Mixed Strategy）

现在让我们回顾一下“赌便士”博弈。这个博弈似乎没有确定的解。最小的赢利在两个战略下是相同的：-1。但是这不是全部的故事。这个博弈可以有超过两个的战略。作为正面、反面两个明显战略的补充，参与人可以一定的概率随机选择提供正面或反面，使其战略“随机化”。这样的随机战略叫做“混合战略”。两个显战略，正面或背面，叫做“纯战略（pure strategies）”

参阅：http://bbs.efnchina.com/dispbbs.asp?boardID=92512&ID=28840