博弈论基础.pdf
http://www.100md.com
2020年3月13日
![]() |
| 第1页 |
![]() |
| 第6页 |
![]() |
| 第17页 |
![]() |
| 第21页 |
![]() |
| 第31页 |
![]() |
| 第76页 |
参见附件(8946KB,272页)。
博弈论基础,这是一本全面介绍和分析博弈论的经济学著作,此书目前主要用于学校教科书本,在书中将带你全面了解和研究博弈论的精髓。

博弈论基础介绍
清晰、精确,并间以丰富的例证,《当代经济学教科书译丛:博弈论基础》将是尚未涉足博弈论的应用经济学者入门必读,亦为博弈论大师们讲授这门课的最好教材,本书的力量在于从博弈论的最新发展中撷取了大量例证,吉本斯善于把抽象的问题讲得简单易懂。这方面他真是个天才,使人对这一理论兴味大增。绝大多数例子本身就妙趣横生——简直令人不忍释卷,这种理论和应用的完美结合正是读者希望此类书籍能够达到的。本书在理论和应用的结合方面是非常杰出的,例子已成为每章不可分割的组成部分,不仅为学习技术方法提供了可信的例证,同时还介绍了经济学应用领域的最新进展。此书对希望掌握博弈论应用的学生和研究人员都是必读之物。
博弈论基础目录
第1章 完全信息静态博弃
第2章 完全信息动态博弃
第3章 非完全信息静态博弃
第4章 非完全信息动态博弃
博弈论基础序言
最近20年来,中国经历了剧烈的社会和经济变迁,而且可以预期,还会沿着邓小平理论指引的方向继续前进。这种变迁呼唤着适当的经济理论来提供某种指导——中国的发展和改革需要经济学理论的创新。在创新过程中,无疑需要借鉴西方经济学。同样,西方经济学的发展也越来越需要更为广阔的经济视野,需要从更为多样化的经济实践中吸取营养。于是,西方经济学界越来越多的有识之士把目光转向了原来实行计划经济的国家,这些国家的苦恼、阵痛、期望和奋斗历程都可能成为经济学进一步发展的契机,都可能为经济学的发展提供新的素材、新的视角、新的思路、新的方法。而在原计划经济国家中,中国是惟一保持转轨与发展并行不悖的国家。这使东西方的许多经济学家感到振奋。
为了深化我们对中国经济及其改革过程的理解,从而为我国的经济建设提供切实可行的指导,为经济学的发展提供新的素材和新的视角,加强中国与西方经济学的交流和沟通就成为必不可少的了。为此,北京大学和斯坦福大学两个经济学院系的有关教学和研究人员准备全面系统地向中国介绍西方经济学的最新研究成果和研究方法,主要是把西方一流经济学院系正在使用的最新、最好的经济学教材译介到中国来。
这套丛书有如下特点。第一,层次高。本丛书所选书目均为中高级教材。第二,内容新。所选书目均为美国最近几年出版的教材,体现了西方经济学的最新研究成果与水准。第三,题材广泛且具有系统性。大凡当代经济学的各个领域,从基础理论到各专门学科,从理论、历史到方法,本译丛均有涉及。第四,选材权威。本译丛所选书目均经北京大学和斯坦福大学有关经济学家严格挑选,都是美国经济学教材中的优秀之作,均出自美国著名经济学家之手,并在美国名牌大学经济学系广为使用。
这套《当代经济学教科书译丛》包括高级和中级两个系列。高级系列覆盖了西方经济学的各个基础领域,包括宏观经济学、微观经济学、经济计量学、对策论、经济史和经济思想史等,入选各书均为目前西方一流经济学院系所用的最新最好的研究生教材。我们希望这套书能对读者了解当代西方经济学的现状和未来发展方向有所帮助,也希望对理解中国经济、从而为中国的经济改革有所裨益。
博弈论基础截图


(京)新登字030号
图字:01-1999-0959号
图书在版编目(CIP)数据
博弈论基础(美)吉本斯(Gibbons,R.)著;高峰译.—北京:
中国社会科学出版社,1999.3
(当代经济学教科书译丛)
ISBN 7-5004-2454-X
Ⅰ.博… Ⅱ.①吉…②高… Ⅲ.对策论 Ⅳ.0225
中国版本图书馆CIP数据核字(1999)第13099号
“Translation Copyright?1998by China Social Sciences
Publishing House”Copyright?1992 All Rights Reserved.
Published by arrangement with the original publisher,Prentice Hall Europe,a SimonSchuster company.
责任编辑 张红
责任校对 李明
封面设计 毛国宣
版式设计 吴明
数字编辑 于晓伦
出版发行
(北京鼓楼西大街甲158号)
邮编 100720
经销 新华书店
印刷 北京大兴新魏印刷厂
版次 1999年3月第1版、第1次印刷
开本 787×1092毫米 116
印张 13.25插页 2
字数 228千字
印数 4000册
纸书定价 25.00元
ISBN 7-5004-2454-XF·446内容简介
介绍博弈论的杰出之作:清晰、精确,并间以丰富的例证,此书将
是尚未涉足博弈论的应用经济学者入门必读,亦为博弈论大师们讲授这
门课的最好教材。
戴维·克雷普斯,期坦福大学
此书的力量在于从博弈论的最新发展中撷取了大量例证,吉本斯善
于把抽象的问题讲得简单易懂。这方面他真是个天才,使人对这一理论
兴味大增。绝大多数例子本身就妙趣横生——简直令人不忍释卷,这种
理论和应用的完美结合正是读者希望此类书籍能够达到的。
舍文·罗森,芝加哥大学
这本书在理论和应用的结合方面是非常杰出的,例子已成为每章不
可分割的组成部分,不仅为学习技术方法提供了可信的例证,同时还介
绍了经济学应用领域的最新进展。此书对希望掌握博弈论应用的学生和
研究人员都是必读乏物。
詹姆斯·波特巴,MIT
此书为各类读者介绍现代经济学最为常用的分析工具之一,不仅针
对那些将要学习博弈论专业的,还面向那些计划在应用经济领域建立
(甚至只是使用)博弈论模型的读者。吉本斯在强调纯理论的同时,还
同样强调这一理论在经济学中的应用;对抽象博弈理论的正式讨论不是
本书重点,广泛的应用显示出在经济学的不同领域都提出了相似问题,并都可使用相同的博弈论工具进行分析。为强调该理论广阔的发展前
景,本书从经济学的多种分支——产业组织、劳动力经济学、宏观经济
学、金融理论和国际经济学中广泛取例。
作者系约翰逊管理学院的助理教授当代经济学教科书译丛编委会
顾问
陈岱孙(北京大学教授,1926年获哈佛大学哲学博士)
肯尼斯·阿罗(美国斯坦福大学教授,1972年诺贝尔经济学奖获得
者)
主编
晏智杰(北京大学经济学院院长、教授,博士生导师)
钱颖一(美国斯坦福大学教授,1990年获哈佛大学经济学博士)
执行编委
罗涛 苏剑 叶南奇 张红序言
最近20年来,中国经历了剧烈的社会和经济变迁,而且可以预期,还会沿着邓小平理论指引的方向继续前进。这种变迁呼唤着适当的经济
理论来提供某种指导——中国的发展和改革需要经济学理论的创新。在
创新过程中,无疑需要借鉴西方经济学。同样,西方经济学的发展也越
来越需要更为广阔的经济视野,需要从更为多样化的经济实践中吸取营
养。于是,西方经济学界越来越多的有识之士把目光转向了原来实行计
划经济的国家,这些国家的苦恼、阵痛、期望和奋斗历程都可能成为经
济学进一步发展的契机,都可能为经济学的发展提供新的素材、新的视
角、新的思路、新的方法。而在原计划经济国家中,中国是惟一保持转
轨与发展并行不悖的国家。这使东西方的许多经济学家感到振奋。
为了深化我们对中国经济及其改革过程的理解,从而为我国的经济
建设提供切实可行的指导,为经济学的发展提供新的素材和新的视角,加强中国与西方经济学的交流和沟通就成为必不可少的了。为此,北京
大学和斯坦福大学两个经济学院系的有关教学和研究人员准备全面系统
地向中国介绍西方经济学的最新研究成果和研究方法,主要是把西方一
流经济学院系正在使用的最新、最好的经济学教材译介到中国来。
这套丛书有如下特点。第一,层次高。本丛书所选书目均为中高级
教材。第二,内容新。所选书目均为美国最近几年出版的教材,体现了
西方经济学的最新研究成果与水准。第三,题材广泛且具有系统性。大
凡当代经济学的各个领域,从基础理论到各专门学科,从理论、历史到
方法,本译丛均有涉及。第四,选材权威。本译丛所选书目均经北京大
学和斯坦福大学有关经济学家严格挑选,都是美国经济学教材中的优秀
之作,均出自美国著名经济学家之手,并在美国名牌大学经济学系广为
使用。
这套《当代经济学教科书译丛》包括高级和中级两个系列。高级系
列覆盖了西方经济学的各个基础领域,包括宏观经济学、微观经济学、经济计量学、对策论、经济史和经济思想史等,入选各书均为目前西方
一流经济学院系所用的最新最好的研究生教材。我们希望这套书能对读
者了解当代西方经济学的现状和未来发展方向有所帮助,也希望对理解
中国经济、从而为中国的经济改革有所裨益。前言
博弈论是研究多人决策问题的理论,这类问题在经济学研究中又经
常会遇到。例如,大家都已十分熟悉的寡头垄断市场就是典型的多人决
策——其中的每一厂商必须考虑其他厂商的行为。但博弈论在经济学领
域的应用远不限于产业组织理论。在微观研究领域,交易机制的模型
(诸如讨价还价模型和拍卖模型)就涉及博弈论;在中观经济研究中,劳动力经济学和金融理论都有关于企业要素投入品市场(而非寡头垄断
模型中的产出品市场)的博弈论模型,即使在一个企业内部也存在博弈
论问题:如许多工人可能会为同一升迁机会勾心斗角,不同部门间也会
为争取公司的资本金投入相互竞争。最后,从宏观的角度看,国际经济
学中有关于国家间的相互竞争(或互相串谋),选择关税或其他贸易政
策的模型;宏观经济学中也有货币当局和工资、价格制定者(厂商等微
观单位)间的战略相互影响,最终决定了货币政策效果的模型。
这本书是为那些以后将在经济学应用领域建立(至少是使用)博弈
论模型的人设计的,介绍理论应用的篇幅至少和纯理论一样多,原因有
三:第一,具体应用的例子有助于对纯理论的学习和理解,本书也有关
于抽象博弈论模型的正式讨论,但相比之下较为次要;第二,在介绍应
用的同时也说明了构建模型的程序——即把非正式的对多人决策问题的
描述转化为可分析的正式博弈论问题的程序;第三,不同的例子也显示
出在经济学的不同领域中遇到的问题有很多在本质上是相似的,并可使
用相同的博弈论分析工具去分析不同类型的问题。为强调博弈论广泛的
潜在运用领域,本书尽量减少使用大家已广为熟悉的其在产业组织理论
中的应用例子,而更多地介绍其在经济学其他领域的应用,如劳动力经
济学、宏观经济学等。
在本书中,我们将讨论四种类型的博弈:完全信息静态博弈、完全
信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。(如果其
中一个参与人不知道另外参与人的收益函数,该博弈就是不完全信息
的,如在拍卖中,每一个竞买者都不知道另外竞买者愿为拍卖品出多高
的价格)与上述四种类型博弈相对应的是博弈论的四个均衡概念:纳什
均衡(Nash equilibrium)、子博弈精炼纳什均衡(subgame-perfect
Nash equilibrium)、贝叶斯纳什均衡(Bayesian Nash
equilibrium)和精炼贝叶斯均衡(perfect Bayesianequilibrium)。
为更好地在整体上理解这四个均衡概念,应注意以下两点:第一,这四个均衡概念的条件是逐渐强化的,更为严格的概念的提出是为了弥
补条件较弱的均衡概念的不足和漏洞。例如,我们会看到,子博弈精炼
纳什均衡的条件比纳什均衡的条件更为严格,而精炼贝叶斯均衡的条件
又较子博弈精炼均衡为强。第二,如果我们愿意,可以把所有的均衡概
念都归为某种条件下的精炼贝叶斯均衡(甚至是条件更强的均衡概
念),它在完全信息静态博弈的条件下与纳什均衡是等价的,在完全
(且完美)信息动态博弈中等价于子博弈精炼均衡,在不完全信息静态
博弈下等价于贝叶斯纳什均衡。
本书可提供两种用途。经济学系一年级的研究生,由于对书中的许
多应用已十分熟悉,可用半学期的课程讲完博弈论的主要内容,余下的
应用部分可安排课下自学。对本科大学生,一整个学期的课程安排更为
妥当,从而有时间较从容地学习理论,并在课堂上讲授书中的应用。所
需的主要数学基础为一元微积分;概率论的基本概念和分析工具,本书
在用到时将加以介绍。
我的博弈论知识主要得自我在研究生期间的戴维·克雷普斯
(David Kreps)、约翰·罗伯茨(John Roberts)、鲍勃·威尔逊
(Bob Wilson)以及其后的亚当·布兰登贝格尔(Adam
Brandenburger)、德鲁·富登伯格(Drew Fudenberg)和琼·泰勒尔
(Jean Tirole),书中的理论主要得自他们所传;本书偏重于应用的
特点及通俗易学的风格,则主要得益于MIT经济学系聪敏好学的学生,我于1985—1990年间为他们开设这门课程。我对以上师友们的指导和鼓
励致以万分的谢意,并衷心感谢对本书草稿提供宝贵意见的乔·法雷尔
(Joe Farrell)、米尔特·哈里斯(Milt Harris)、乔治·马拉斯
(George Mailath)、马修·雷宾(Matthew Rabin)、安迪·韦斯
(Andy Weiss)及其他无法提及姓名的读者。最后,我还非常荣幸地得
到普林斯顿大学出版社杰克·莱普彻克(Jack Repcheck)的指导和鼓
励,以及国家经济研究局奥林经济学奖金(Olin Fellowship in
Economics)的资助,在此一并致谢。目录
序言
前言
第1章 完全信息静态博弈
1.1 基础理论:博弈的标准式和纳什均衡
1.1.A 博弈的标准式表述
1.1.B 重复剔除严格劣战略
1.1.C 纳什均衡的导出和定义
1.2 应用举例
1.2.A 古诺的双头垄断模型
1.2.B 贝特兰德的双头垄断模型
1.2.C 最后要价仲裁
1.2.D 公共财问题
1.3 理论发展:混合战略和均衡的存在性
1.3.A 混合战略
1.3.B 纳什均衡的存在性
1.4 进一步阅读
1.5 习题与练习
第1.1节
第1.2节
第1.3节
1.6 参考文献
第2章 完全信息动态博弈
2.1 完全且完美信息动态博弈
2.1.A 理论:逆向归纳法
2.1.B 斯塔克尔贝里双头垄断模型
2.1.C 有工会企业的工资和就业
2.1.D 序贯谈判
2.2 完全非完美信息两阶段博弈
2.2.A 理论:子博弈精炼
2.2.B 对银行的挤提
2.2.C 关税和国际市场的不完全竞争
2.2.D 工作竞赛2.3 重复博弈
2.3.A 理论:两阶段重复博弈
2.3.B 理论:无限重复博弈
2.3.C 古诺双头垄断下的共谋
2.3.D 效率工资
2.3.E 时间一致性的(Time-Consistent)货币政策
2.4 完全非完美信息动态博弈
2.4.A 博弈的扩展式表述
2.4.B 子博弈精炼纳什均衡
2.5 进一步阅读
2.6 习题
第2.1节
第2.2节
第2.3节
第2.4节
2.7 参考文献
第3章 非完全信息静态博弈
3.1 理论:静态贝叶斯博弈和贝叶斯纳什均衡
3.1.A 一个例子:非对称信息下的古诺竞争
3.1.B 静态贝叶斯博弈的标准式表述
3.1.C 贝叶斯纳什均衡的定义
3.2 应用举例
3.2.A 再谈混合战略
3.2.B 拍卖一种
3.2.C 双向拍卖
3.3 显示原理(The Revelation Principle)
3.4 进一步阅读
3.5 习题与练习
第3.1节
第3.2节
3.6 参考文献
第4章 非完全信息动态博弈
4.1 精炼贝叶斯均衡概述
4.2 信号博弈
4.2.A 信号博弈的精炼贝叶斯均衡
4.2.B 就业市场信号4.2.C 公司投资和资本结构
4.2.D 货币政策
4.3 精炼贝叶斯均衡的其他应用
4.3.A 空谈博弈
4.3.B 非对称信息下的序贯谈判
4.3.C 有限重复囚徒困境中的声誉
4.4 精炼贝叶斯均衡的再精炼
4.5 进一步阅读
4.6 习题
第4.1节
第4.2节
第4.3节
第4.4节
4.7 参考文献第1章 完全信息静态博弈
在本章中,我们讨论如下简单形式的博弈:开始时由参与者同时选
择行动,然后根据所有参与者的选择,每个参与者得到各自的结果(一
定的收益或支出)。在此类静态(即各方同时行动)的博弈中,我们的
分析又仅限于完全信息博弈的情况,即每一参与者的收益函数(根据所
有参与者选择行动的不同组合决定某一参与者收益的函数)在所有参与
者之间是共同知识(common knowledge)。我们在本书的第2章和第4章
讨论动态(即序贯行动)博弈,在本书的第3章和第4章分析不完全信息
博弈(博弈中的一些参与者不知道其他参与者的收益函数,如拍卖中每
一人都不清楚其他人到底愿意为拍卖品出多高的价格)。
在第1.1节首先介绍博弈论入门的两个最基本问题:如何描述一个
博弈问题以及如何求得博弈问题的解。我们定义博弈的标准式表述和严
格劣战略的概念,并说明有些博弈问题只要运用理性参与者绝不会使用
严格劣战略这一原则,就可得到解决,但此原则在其他博弈问题中也可
能出现非常不精确的预测(像任何结果都有可能发生之类)。接着,我
们引出纳什均衡的概念并给出定义——这一概念的用途很广,对很多类
型的博弈都能作出较为严格的预测。
在第1.2节我们运用前面介绍的工具,分析其四个应用模型:古诺
(Cournot,1838)的不完全竞争模型,贝特兰德(Bertrand,1883)
的不完全竞争模型,法伯(Farber,1980)的最后要价仲裁和公共财产
问题(休谟(Hume),1739年提出了此类问题,以后又不断被经济学家
提出讨论)。在每一应用例子中,我们先把问题的非标准描述转化为博
弈的标准式,其后再解出该博弈的纳什均衡。(上面每一例子都存在惟
一的纳什均衡,但我们讨论的范围却不限于此。)
在第1.3节重回理论分析。首先我们定义混合战略(Mixed
strategy),它可理解为一个参与者并不能确定其他参与者将会如何行
动,然后引出并讨论纳什定理,该定理保证了在非常广泛的博弈类型中
都存在着纳什均衡(也许会是混合战略均衡)。由于我们在第1.1节介
绍了最基本的理论,在第1.2节安排了应用举例,最后在第1.3节又给出
了更进一步的理论内容,显然,在第1.3节中更深入的理论探讨,对第
1.2节例子的理解并不是必须的前提,混合战略的概念和均衡的存在性
在以后各章中都时有提及。本章及其后各章后面均附有习题、建议以及进一步的阅读资料及参
考文献目录。1.1 基础理论:博弈的标准式和纳什均衡
1.1.A 博弈的标准式表述
在博弈的标准式表述中,每一参与者同时选择一个战略,所有参与
者选择战略的组合决定了每个参与者的收益。我们借一个经典的例子说
明博弈的标准式——囚徒困境。两个犯罪嫌疑人被捕并受到指控,但除
非至少一个人招认犯罪,警方并无充足证据将其按罪判刑。警方把他们
关入不同牢室,并对他们说明不同行动带来的后果。如果两人都不坦
白,将均被判为轻度犯罪,入狱一个月;如果双方都坦白招认,都将被
判入狱6个月;最后,如果一人招认而另一人拒不坦白,招认的一方将
马上获释,而另一人将判入狱9个月——所犯罪行6个月,干扰司法加判
3个月。
囚徒面临的问题可用下图所示的双变量矩阵表来描述。(正如同一
个矩阵一样,双变量矩阵可由任意多的行和列组成,“双变量”指的是
在两个参与者的博弈中,每一单元格有两个数字——分别表示两个参与
者的收益)
囚徒的困境
在此博弈中,每一囚徒有两种战略可供选择:坦白(或招认)、不
坦白(或沉默),在一组特定的战略组合被选定后,两人的收益由上图
双变量矩阵中相应单元的数据所表示。习惯上,横行代表的参与者(此例中为囚徒1)的收益在两个数字中放前面,列代表的参与者(此例为
囚徒2)的收益置于其后。这样,如果囚徒1选择沉默,囚徒2选择招
认,囚徒1的收益就是-9(代表服刑9个月),囚徒2的收益为0(代表马
上开释)。
现在我们回到一般情况。博弈的标准式表述包括:(1)博弈的参
与者,(2)每一参与者可供选择的战略集,(3)针对所有参与者可能
选择的战略组合,每一个参与者获得的收益。我们后面将经常讨论到n
个参与者的博弈,其中参与者从1到n排序,设其中任一参与者的序号为
i,令Si 代表参与者i可以选择的战略集合(称为i的战略空间),其中
任意一个特定的战略用si 表示(有时我们写成si ∈Si 表示战略si 是
战略集Si 中的要素)。令(s1 ,…,sn )表示每个参与者选定一个战
略形成的战略组合,ui 表示第i个参与者的收益函数,ui (s1 ,…,sn )即为参与者选择战略(s1 ,…,sn )时第i个参与者的收益。将
上述内容综合起来,我们得到:
定义 在一个n人博弈的标准式表述中,参与者的战略空间为S1 ,…,Sn ,收益函数为u1 ,…,un ,我们用G={S1 ,…,Sn ;u1 ,…,un }表示此博弈。
尽管我们曾提到在博弈的标准式中,参与者是同时选择战略的,但
这并不意味着各方的行动也必须是同时的:只要是每一参与者在选择行
动时不知道其他参与者的选择就足够了,像上例中牢里分开关押的囚徒
可以在任何时间作出他们的选择。更进一步,尽管在本章中博弈的标准
式只用来表示参与者行动时不清楚他人选择的静态博弈,但在第2章中
我们就会看到标准式也可用来表示序贯行动的博弈,只不过另一种变通
的方式——博弈的扩展式表述更为常用,它在分析动态问题时也更为方
便。
1.1.B 重复剔除严格劣战略
上节已讲过一个博弈的表述方法,下面开始介绍如何着手分析一个
博弈论问题。我们从囚徒的困境这个例子开始,因为它较为简单,只需
用到理性的参与者不会选择严格劣战略这一原则。
在囚徒的困境中,如果一个嫌疑犯选择了招认,那么另一人也会选择招认,被判刑6个月,而不会选择沉默从而坐9个月的牢;相似地,如
果一个嫌疑犯选择沉默,另一人还是会选择招认,这样会马上获释,而
不会选择沉默在牢里渡过一个月。这样,对第i个囚徒讲,沉默相比招
认来说是劣战略——对囚徒j可以选择的每一战略,囚徒i选择沉默的收
益都低于选择招认的收益。(对任何双变量矩阵,上例中的收益的具体
数字0,-1,-6,-9换成任意的T、R、P、S,只要满足T>R>P>S,上
述结论依然成立。)更为一般地:
定义 在标准式的博弈G={S1 ,…,Sn ;u1 ,…,un }中,令s'i
和si 代表参与者i的两个可行战略(即s'i 和si ;是Si 中的元
素)。如果对其他参与者每一个可能的战略组合,i选择s'i 的收益都
小于其选择si 的收益,则称战略s'i 相对于战略si 是严格劣战略:
ui (s1 ,…,Si-1 ,s'i ,si+l ,…,Sn )
对其他参与者在其战略空间S1 ,…,Si-1 ,Si+1 ,…,Sn 中每一
组可能的战略(s1 ,…,Si-1 ,si+1 ,…,sn )都成立。
理性的参与者不会选择严格劣战略,因为他(对其他人选择的战
略)无法作出这样的推断,使这一战略成为他的最优反应。 [1] 这样,在囚徒的困境中,一个理性的参与人会选择招认,于是(招认,招认)
就成为两个理性参与者的结果,尽管(招认,招认)带给双方的福利都
比(沉默,沉默)要低。囚徒的困境的例子还有很多应用,我们将在第
2章和第4章讨论它的变型。现在,我们来看理性参与者不选择严格劣战
略这一原则是否能解决其他博弈问题。图1.1.1
考虑图1.1.1所示抽象博弈的例子, [2] 参与人1有两个可选战略,参与人2有3个可选战略:S1 ={上,下},S2 ={左,中,右}。对参与人
1来讲,上和下都不是严格占优的:如果2选择左,上优于下(因为1>
0),但如2选择右,下就会优于上(因为2>0)。但对参与人2来讲,右严格劣于中(因为2>1且1>0),因此理性的参与人2是不会选择右
的。那么,如果参与人1知道参与人2是理性的,他就可以把右从参与人
2的战略空间中剔除,即如果参与人1知道参与人2是理性的,他就可以
把图1.1.1所示博弈视同为图1.1.2所示博弈:
图1.1.2
在图1.1.2中,对参与人1来讲,下就成了上的严格劣战略,于是如
果参与人1是理性的(并且参与人1知道参与人2是理性的,这样才能把
原博弈简化为图1.1.2),参与人1就不会选择下。那么,如果参与人2知道参与人1是理性的,并且参与人2知道参与人1知道参与人2是理性的
(从而参与人2知道原博弈将会简化为图1.1.2所示博弈),参与人2就
可以把下从参与人1的战略空间中剔除,余下图1.1.3所示博弈。但这时
对参与人2,左又成为中的严格劣战略,仅剩的(上,中)就是此博弈
的结果。
图1.1.3
上面的过程可称为“重复剔除严格劣战略”。尽管此过程建立在理
性参与人不会选择严格劣战略这一合情近理的原则之上,它仍有两个缺
陷:第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果
我们要把这一过程应用到任意多步,就需要假定“参与者是理性的”是
共同知识。这意味着,我们不仅需要假定所有参与人是理性的,还要假
定所有参与人都知道所有参与人是理性的,还需要假定所有参与人都知
道所有参与人都知道所有参与人是理性的,如此等等,以至无穷(关于
共同知识的正式定义参见奥曼(Aumann,1976))。
重复剔除严格劣战略的第二个缺陷在于这一方法对博弈结果的预测
经常是不精确的。例如,在1.1.4中的博弈中,就没有可以剔除的严格
劣战略。(由于没有现实事件作为基础,这一博弈可能会被认为是随意
编制或不合逻辑的,为此我们还可以参考1.2.A中经济学应用部分反映
同一实质的3个及更多企业的古诺模型)既然所有战略都经得住对严格
劣战略的重复剔除,该方法对分析博弈将出现什么结果毫无帮助。图1.1.4
下面我们介绍纳什均衡,它是一种博弈的解的概念,可以对非常广
泛类型的博弈作出严格得多的预测。我们通过参与者的纳什均衡战略绝
不会在重复剔除严格劣战略的过程中被剔除掉,而重复剔除劣战略后所
留战略却不一定满足纳什均衡战略的条件,来证明纳什均衡是一个比重
复剔除严格劣战略要强的解的概念。以后各章我们还将证明在扩展式的
博弈中,甚至纳什均衡对博弈结果的预测也可能是不精确的,从而还需
要定义条件更为严格的均衡概念。
1.1.C 纳什均衡的导出和定义
导出纳什均衡的途径之一,是证明如果博弈论还可以为博弈问题提
供一个惟一解,此解一定是纳什均衡,原因如下。设想在博弈论预测的
博弈结果中,给每个参与者选定各自的战略,为使该预测是正确的,必
须使参与者自愿选择理论给他推导出的战略。这样,每一参与者要选择
的战略必须是针对其他参与者选择战略的最优反应,这种理论推测结果
可以叫做“战略稳定”或“自动实施”的,因为没有参与人愿意独自离
弃他所选定的战略,我们把这一状态称为纳什均衡。
定义 在n个参与者标准式博弈G={S1 ,…,Sn ;u1 ,…,un }
中,如果战略组合 满足对每一参与者i, 是(至少不劣于)他针对其他n-1个参与者所选战略 的最优反
应战略,则称战略组合 是该博弈的一个纳什均衡。即:
对所有Si 中的si 都成立,亦即 是以下最优化问题的解:
为把该定义和开始提到的推导思路联系起来,设想有一标准式博弈
G={Si ,…,Sn ;ul ,…,un },博弈论为它提供的解为战略组合
{s'1 ,…,s'n },如果{s'1 ,…,s'n }不是G的纳什均衡,就意味着
存在一些参与人i,s'i 不是针对{s'1 ,…,s'i-1 ,s'i+1 ,…,s'n
}的最优反应战略,即在Si 中存在si ,使得:
ui (s'1 ,…,s'i-1 ,s'i ,s'i+1 ,…,s'n )
那么,如果博弈论提供的战略组合解{S'1 ,…,s'n }不是纳什均
衡,则至少有一个参与者有动因偏离理论的预测,使得博弈真实进行和
理论预测不一致。和纳什均衡推导密切相关的是协议的理念:对给定的
博弈,如果参与者之间要商定一个协议决定博弈如何进行,那么一个有
效的协议中的战略组合必须是纳什均衡的战略组合,否则,至少有一个
参与人会不遵守该协议。
为更准确地理解这一概念,下面求解几个例题。考虑前面已描述过
的三个标准式博弈——囚徒的困境、图1.1.1和图1.1.4。寻找博弈纳什
均衡的一个最直接办法就是简单查看每一个可能的战略组合是否符合定
义中不等式(NE)的条件。 [3] 在两人博弈中,这一方法开始的程序如
下:对每一个参与者,并且对该参与者每一个可选战略,确定另一参与
者相应的最优战略。图1.1.5中,就把图1.1.4所示博弈作了上述处理,对参与者i的每一个可选战略,在参与者j使用最优反应战略时的收益下
面划了横线。例如,如果列参与人选择左,行参与人的最优战略将会是
中(因为4比3和0都要大),于是我们在双变量矩阵(中,左)单元内
行参与人的收益“4”下划一条横线。图1.1.5
如果在一对战略中,每一参与人的战略都是对方战略的最优反应战
略,则这对战略满足不等式(NE)的条件(亦即双变量矩阵相应单元的
两个收益值下面都被划了横线)。这样,(下,右)是惟一一对满足
(NE)的战略组合。同样的过程可得到囚徒困境中的战略组合(招认,招认)、图1.1.1中的战略组合(上,中)。这些战略组合就是各自博
弈中惟一的纳什均衡。 [4]
下面我们重点分析纳什均衡和重复剔除严格劣战略均衡的关系。我
们已经看到,囚徒困境和图1.1.1中的纳什均衡——分别为(招认,招
认)和(上,中)——正是经过重复剔除严格劣战略后仅剩的战略组
合。这一结果可总结为:如果用重复剔除严格劣战略把除战略组合
外所有的战略组合都剔除掉,则该所存战略组合就是此博
弈惟一的纳什均衡(参见在附录1.1.C中这一结论的证明)。不过,由
于重复剔除严格劣战略并不经常会只剩下惟一的战略组合,纳什均衡作
为比重复剔除严格劣战略更强的解的概念,自然受到更多关注,理由如
下。如果战略组合 是一个纳什均衡,它一定不会被重复剔
除严格劣战略所剔除(同样参见附录中的证明),但也可能有重复剔除
严格劣战略无法剔除的战略组合,其本身却和纳什均衡一点儿关系都没
有。为理解这一点,请想一下图1.1.4所示博弈,纳什均衡给出了惟一
解(下,右),但重复剔除严格劣战略却给出了最大不确定性的预测:
没有任何战略组合被剔除,什么结果都有可能出现。
证明了纳什均衡是一个比重复剔除严格劣战略条件更强的解的概念之后,我们还必须解决一个问题,就是纳什均衡作为博弈解的概念,条
件是否太强了,即我们能否确定纳什均衡一定是存在的?纳什(1950)
证明了在任何有限博弈(即参与者n和战略集S1 ,…,Sn 都是有限的
博弈)中,都存在至少一个纳什均衡(这一均衡可能包含了混合战略,我们将在1.3.A中讨论,并参见1.3.B中关于纳什定理的精确表述)。古
诺(1838)在双头垄断模型这一特定的环境中提出了同样的均衡概念,并通过构造的方法证明了模型中均衡的存在性(参见第1.2.A节)。在
本书的每一个应用分析中,我们都将沿袭古诺的思路:即将通过构造一
个纳什均衡(或条件更强的均衡)的方法,证明均衡本身的存在性。不
过在一些理论章节中,也有直接依据纳什定理(或条件更强时的类似定
理),简单断定均衡存在的情况。
我们用另一经典例子作为本节小结——性别战博弈。这一例子表明
一个博弈可以有多个纳什均衡,并且在第1.3.B和第3.2.A节讨论混合战
略时也用得到。关于这一博弈的传统表述(要知道这一博弈从20世纪50
年代就开始使用了),是一男一女试图决定安排一个晚上的娱乐内容,我们分析这一博弈的中性版本。不在同一地方工作的帕特和克里斯必须
就去听歌剧和看职业拳击赛选择其一,帕特和克里斯都希望两人能在一
起渡过一个夜晚,而不愿分开,但帕特更希望能一起看拳击比赛,克里
斯则希望能在一起欣赏歌剧,如下面双变量矩阵所示:
性别战博弈
(歌剧,歌剧)和(拳击,拳击)都是纳什均衡。
以上我们论证了如果博弈论可以为一个博弈提供惟一解,此解一定
是一个纳什均衡。这一命题没有提及博弈论不能提供惟一解的可能情况。同时还论证了如果参与者之间能就如何进行给定的博弈达成一个协
议,该协议也一定是一个纳什均衡,但这一命题同样没有考虑不能达成
协议的可能情况。在一些有多个纳什均衡的博弈中,有一个均衡比其他
均衡明细占优(后面各章的主要理论内容就是找出不同类型博弈的这种
占优均衡),这时,多个纳什均衡的存在本身也不会引出其他问题。不
过,在上面讲的性别战博弈中,(歌剧,歌剧)和(拳击,拳击)又难
分优劣,这说明博弈论对有些博弈并不能提供惟一解,参与者间也不能
就该博弈的进行达成协议。 [5] 在这样的博弈中,纳什均衡用于预测博
弈将如何进行的作用就大大减弱了。
附录1.1.C
本附录是关于1.1.C提到的两个命题的证明,跳过这些证明对以后
内容的理解不会有很大影响。不过,对于不太谙熟正规定义及证明操作
的读者,掌握这些证明程序也是一种有益的训练。
命题A 在n个参与者的标准式博弈G={S1 ,…,Sn ;u1 ,…,un }
中,如果重复剔除严格劣战略剔除掉除战略组合 外的所有
战略,那么这一战略组合为该博弈惟一的纳什均衡。
命题B 在n个参与者的标准式博弈G={S1 ,…,Sn ;u1 ,…,un }
中,如果战略 是一个纳什均衡,那么它不会被重复剔除严
格劣战略所剔除。
由于命题B的证明比较简单,我们先用它作一个热身。论证使用反
证法,即我们先假定一个纳什均衡解在重复剔除严格劣战略的过程中被
剔除掉了,然后证明如果该假定成立,就会有自相矛盾的结果出现,从
而证明假定本身是错误的。
设想战略 是标准式博弈G={S1 ,…,Sn ;u1 ,…,un }的一个纳什均衡,但同时假定(也许在剔除掉 之外的
一些战略之后)在 中, 首先称为应被剔除的严格劣战
略,那么Si 中一定存在尚未被剔除的战略si 严格优于 。代入公式
(DS),我们得到对每一个其他参与者尚未被剔除的战略空间中可能形成的战略组合
(s1 ,…,si-1 ,si+1 ,…,sn )都成立。由于 是均衡战略中第
一个被剔除的战略,均衡战略中其他参与人的战略尚未被剔除,于是作
为(1.1.1)的一个特例,下式成立
但是(1.1.2)和公式(NE)是矛盾的:根据(NE), 必须是
针对( )的最优反应,那么就不可能存在一个
战略si 严格优于 。这一矛盾证明了原命题成立。
证明过命题B,我们事实上已经证明了命题A的一部分:所有需要证
明的只是如果重复剔除严格劣战略剔除了除 之外的所有战
略,该战略是纳什均衡,根据命题B,任何其他的纳什均衡必定同样未
被剔除,这已证明了在该博弈中均衡的惟一性。我们假设G是有限博
弈。
论证同样使用反证法。假定通过重复剔除严格劣战略剔除掉除
外的所有战略,但该战略不是纳什均衡。那么一定有某一
参与者i在他的战略集Si 中存在使公式(NE)不成立,但si 又必须是
在剔除过程某一阶段的严格劣战略。上述两点的正规表述为:在Si 中
存在存在si ,使
并且在参与者i的战略集中存在s'i ,在剔除程序中的某一阶段
ui (s1 ,…,si-1 ,si ,si+1 ,…,sn )
,s'i ,si+l ,…,sn ). (1.1.4)
对所有其他参与者在该阶段剩余战略可能的战略组合(s1 ,…,si-1 ,si+1 ,…,sn )都成立。由于其他参与者的战略始终未被剔除,于是下式作为(1.1.4)的一
个特例成立如果 (即 是si 的严格占优战略),则1.1.5和1.1.3相
互矛盾,这时证明结束。如果s'i ≠Si ,由于s'i 在最终被剔除掉
了,则一定有其他战略si 在其后严格优于s'i 。这样,在不等式
(1.1.4)和(1.1.5)中,分别用s'i 和si 换下si 和s'i 后仍然成
立。再一次,如果 则证明结束,否则,还可构建两个相似的不
等式。由于 是Si 中惟一未被剔除的战略,重复这一论证过程(在一
个有限的博弈中)最终一定能完成证明。1.2 应用举例
1.2.A 古诺的双头垄断模型
正如前节已提到的,古诺(1838)早在一个多世纪之前就已提出了
纳什所定义的均衡(但只是在特定的双头垄断模型中)。古诺的研究现
在已理所当然地成为博弈论的经典文献之一,同时也是产业组织理论的
重要里程碑。这里,我们只讨论古诺模型的一种非常简单的情况,并在
以后每章中都会涉及到这一模型的不同变型。本节我们将通过模型说
明:(a)如何把对一个问题的非正式描述转化为一个博弈的标准式表
述;(b)如何通过计算解出博弈的纳什均衡;(c)重复剔除严格劣战
略的步骤。
令q1 、q2 分别表述企业1、2生产的同质产品的产量,市场中该产
品的总供给Q=q1 +q2 ,令P(Q)=a-Q表示市场出清时的价格(更为精
确一些的表述为:Qa时,P(Q)=0)。设企业
i生产qi 的总成本Ci (qi )=cqi ,即企业不存在固定成本,且生产每
单位产品的边际成本为常数c,这里我们假定c
为求出古诺博弈中的纳什均衡,我们首先要将其化为标准式的博
弈。前节已讲过,博弈的标准式表述包含下列要素:(1)博弈的参与
人,(2)每一参与人可以选择的战略,(3)针对每一个可能出现的参
与人的战略组合,每一参与人的收益。双头垄断模型中当然只有两个参
与人,即模型中的两个垄断企业。在古诺的模型里,每一企业可以选择
的战略是其产品产量,我们假定产品是连续可分割的。由于产出不可能
为负,每一企业的战略空间就可表示为Si =[0,∞),即包含所有非负
实数,其中一个代表性战略si 就是企业选择的产量,qi ≥0。也许有
的读者提出特别大的产量也是不可能的,因而不应包括在战略空间之
中,不过,由于Q≥a时,P(Q)=0,任一企业都不会有qi >a的产出。
要全面表述这一博弈并求其均衡解,还需把企业i的收益表示为它
自己和另一企业所选择战略的函数。我们假定企业的收益就是其利润
额,这样在一般的两个参与者标准式博弈中,参与者i的收益ui (si,sj )就可写为: [7]
πi (qi ,qj )=qi [p(qi +qj )-c]=qi [a-(qi +qj )-c].
上节我们讲过,在一个标准式的两人博弈中,一对战略( )
如是纳什均衡,则对每个参与者i, 应该满足
上式对Si 中每一个可选战略si 都成立,这一条件等价于:对每个
参与者i, 必须是下面最优化问题的解:
在古诺的双头垄断模型中,上面的条件可具体表述为:一对产出组
合 若为纳什均衡,对每一个企业i, 应为下面最大化问题
的解:
设 (下面将证明该假设成立),企业i最优化问题的一阶
条件既是必要条件,又是充分条件;其解为
那么,如果产量组合( )要成为纳什均衡,企业的产量选
择必须满足:
且
解这一对方程组得均衡解的确小于a-c,满足上面的假设。
对这一均衡的直观理解非常简单。每一家企业当然都希望成为市场
的垄断者,这时它会选择qi 使自己的利润πi ,(qi ,0)最大化,结
果其产量将为垄断产量qm =(a-c)2并可赚取垄断利润πi (qi ,0)
=(a-c)2 4。在市场上有两家企业的情况下,要使两企业总的利润最
大化,两企业的产量之和q1 +q2 应等于垄断产量比如qi =qm 2时就可
满足这一条件。但这种安排存在一个问题,就是每一家企业都有动机偏
离它:因为垄断产量较低,相应的市场价格就比较高,在这一价格下每
家企业都会倾向于提高产量,而不顾这种产量的增加会降低市场出清价
格(为更清楚地理解这一点,参见图1.2.1,并检验当企业1的产量为qm
2时,企业2的最佳产量并不是qm 2)。在古诺的均衡解中,这种情况
就不会发生,两企业的总产量要更高一些,相应地使价格有所降低。习
题1.4是关于n个寡头垄断企业的情况,垄断企业一方面希望提高产量,但又不愿因此而使市场出清价格下降,请分析这相互矛盾的两方面是如
何取得均衡的。
如果认为代数方式解纳什均衡过于抽象,难以理解,我们还可以通
过图形求解,方法如下。等式(1.2.1)给出的是针对企业j的均衡战略
时企业i的最优反应,同样的方法我们可以推导出针对企业1的任意
一个战略企业2的最优反应,和针对企业2任意一个战略企业1的最优反
应。假定企业1的战略q1 满足q1
类似地,如果q2
如图1.2.1所示,这两个最优反应函数只有一个交点,其交点就是
最优产量组合( )。
求解纳什均衡还有第三种方法,即运用重复剔除严格劣战略。在本
例中,这一程序只得到惟一解——根据附录1.1.C中的命题A,一定为纳
什均衡解( )。完整的过程需要无限次剔除,每一步都从两个
企业剩余的战略空间内剔除一个区间,我们在这里只讨论前两步。第一
步,垄断产量qm =(a-c)2严格优于其他任何更高的产量,即对任意x
>0,πi (qm ,qj )>πi (qm +x,qj )对任意的qj ≥0)都成
立。证明如下:如果Q=qm +x+qj
且并且如果Q=qm +x+qj ≥a,则P(Q)=0,生产较低的产出就会提高
利润。第二步,在高于qm 的产量被剔除后,产量(a-c)4严格优于任
何更低的产量,即对任意在0到(a-c)4之间的x,πi [(a-c)4,qj ]>πi [(a-c)4-x,qj ]对任意在0到(a-c)2之间的qj 都成
立,证明如下:
且
经过以上两步剔除,每一企业选择产量的战略空间只剩下了(a-
c)4到(a-c)2之间的区间。重复上面的过程可以把剩余战略空间限
制得越来越小。到达极限时,这一区间就成为一个点 。
重复剔除严格劣战略的方法也可以用图形来描述,这要用到我们前
面的一个观察结论(附注1,同时参见1.3.A中的讨论):当且仅当对其
他参与者的战略,无法作出这样的推断,使某一战略成为最优反应战
略,该战略为严格劣战略。由于本模型只有两个企业,我们可以将这一
结论化为:当且仅当没有任何qj 可使qi 成为企业i的最优反应战略
时,qi 为严格劣战略。我们仍只讨论重复剔除过程的前两步。第一,对企业i而言,生产超过垄断产量qm =(a-c)2永远不会是最优反应。
我们以企业2的最优反应函数为例来证明这一点:在图1.2.1中,当q1=0时,R2 (q1 )等于qm ,且随q1 的增加而递减。即对任意的qj ≥0
如果企业i相信企业j将选择qj ,企业i的最优反应就必然小于或等于qm;不存在这样的qj ,使i的最优反应超过qm 。第二,已知企业j产量的
上限,我们可以导出企业i最优反应的下限:如果qj ≤(a-c)2,则
有Ri (qj )≥(a-c)4,如图1.2.2所示企业2的最优反应。 [8]
图1.2.2
和上面相似,重复这一剔除过程就会得到单一的产量。
为总结本节内容,我们把古诺模型稍作变动,使重复剔除严格劣战
略的程序不能得到惟一解。要做到这一点,只需在上面的双头垄断模型
中加入一个或更多的企业。我们将会发现讨论双头垄断时的前两步中,第一步依然成立,但是这一过程也只能中止于此了。也就是说,当企业
数目多于两个时,重复剔除严格劣战略只能得到非常不精确的预测,即
每个企业的产出不会超过垄断条件下的产量。(这与图1.1.4非常类
似,在那里这一方法不能剔除掉任何战略。)
为严谨起见,我们考虑3个企业的例子。令Q-i 表示除i之外的企业
选择的产出之和,并令πi (qi ,Q-i )=qi (a-qi -Q-i -c)),且
qi +Q-i
时垄断产出qm =(a-c)2严格优于任何更高的产量。即对任意x>0,πi (qm ,Q-i )>πi (qm +x,Q-i )对所有Q-i ≥0都成立。这和
双头垄断条件下的第一步完全相同。不过,由于除i之外还有两个企
业,而qj 和qk 都在0到(a-c)2之间,我们对Q-i 所能作的惟一界定
就是在0和a-c之间。这也意味着对企业i而言,任何qi ≥0都不是严格
劣战略,因为对在0到(a-c)2间的任意qi ,都存在相应的在0到a-c
间的Q-i (具体地说,Q-i =a-c-2qi ),使qi 成为企业i针对Q-i 的最
优反应战略。从而就无法再对其余战略空间做进一步剔除。
1.2.B 贝特兰德的双头垄断模型
下面我们讨论双头垄断中两个企业相互竞争的另一模型。贝特兰德
(1883)提出企业在竞争时选择的是产品价格,而不像古诺模型中选择
产量。首先应该明确贝特兰德模型和古诺模型是两个不同的博弈,这一
点十分重要:参与者的战略空间不同,收益函数不同,并且(随后就可
清楚地看到)在两个模型的纳什均衡中,企业行为也不同。一些学者分
别用古诺均衡和贝特兰德均衡来概括所有这些不同点,但这种提法有时
可能会导致误解:它只表示古诺和贝特兰德博弈的差别,以及两个博弈
中均衡行为的差别,而不是博弈中使用的均衡概念不同。在两个博弈
中,所用的都是上节我们定义的纳什均衡。
我们考虑两种有差异的产品(产品完全相同的情况参见习题
1.7)。如果企业1和企业2分别选择价格p1 和p2 ,消费者对企业i的产
品的需求为:
qi (pi ,pj )=a-pi +bpj ,其中6>0,即只限于企业i的产品为企业j产品的替代品的情况(这
个需求函数在现实中并不存在,因为只要企业j的产品价格足够高,无
论企业i要多高的价格,对其产品的需求都是正的。后面将会讲到,只
有在b<2时问题才有意义)。和前面讨论过的古诺模型相似,我们假定
企业生产没有固定成本,并且边际成本为常数c,c
时行动(选择各自的价格)的。
和上节相同,要寻找纳什均衡首先需要把对问题的叙述化为博弈的
标准式。参与者仍为两个,不过这里每个企业可以选择的战略是不同的
价格,而不再是其产品产量。我们假定小于0的价格是没有意义的,但企业可选择任意非负价格——比方说用便士标价的商品,并无最高的价
格限制。这样,每个企业的战略空间又可以表示为所有非负实数Si =
[0,∞),其中企业i的一个典型战略si 是所选择的价格pi >0。
我们仍假定每个企业的收益函数等于其利润额,当企业i选择价格
pi ,其竞争对手选择价格pj 时,企业i的利润为:
πi (pi ,pj )=qi (pi ,pj )[pi -c]=[a-pi +bpj ][pi -c].
那么,价格组合( )若是纳什均衡,对每个企业i, 应
是以下最优化问题的解:
对企业i求此最优化问题的解为
由上可知,如果价格组合( )为纳什均衡,企业选择的价
格应满足
解这一对方程式得:
1.2.C 最后要价仲裁
许多公共部门的职工是不允许罢工的,这时,有关工资的分歧通过
具有约束力的仲裁解决。(棒球联合会在主要的机制上更满足这一条
件,但在经济上的重要性就差多了)很多其他争议,包括医疗事故、股
票持有人对其股票经纪人的投诉等,也多通过仲裁解决。较为重要的仲
裁形式有两类:协议仲裁和最后要价仲裁。在最后要价仲裁中,争议双
方各自就工资水平要价,仲裁人选择其中之一作为仲裁结果;在协议仲
裁中,与之不同的是,仲裁人可自由选定任意工资水平作为仲裁结果。
本节我们根据法伯(1982)的研究,导出在最后要价仲裁模型处于纳什均衡时,博弈双方对工资水平的要价。 [9]
图1.2.3
假定参与争议的双方一为企业,一为工会,争议由工资而起。博弈
进行的时序如下。第一步,企业和工会同时开出自己希望的工资水平,分别用wf 和wu 表示。第二步,仲裁人在二者之中选择其一作为结果。
(与许多被称为静态的博弈相似,它其实属于将在第2章讨论的动态博
弈,只不过这里我们通过对仲裁者第二步行为的假定,将其简化为企业
和工会之间的静态博弈)假定仲裁人本身对工资水平有自己认为合理的
方案,用x来表示这一理想值,进一步假定在观测到双方要价wf 和wu
后,仲裁人只是简单选择距x最为接近的要价:设若Wf
们的直觉一致,后面将会证明它是成立的),如果x<(wf +wu )2,仲裁者将选择wf ;如果x>(wf +wu )2则选择wu ,参见图1.2.3。
(至于x=(wf +wu )2的情况出现时,选择哪一个都无关紧要,不妨
设仲裁者掷硬币决定)仲裁者知道x,但参与双方都不知道,他们相信x
是一个随机变量,其累积分布函数为F(x),相应的概率密度函数为
f(x) [10] 。根据我们对仲裁者行为的假定,如果双方的要价分别为wf
和wu ,那么双方推断wf 被选中的概率Prob{wf 被选}和wu 被选中的概
率Prob{wu 被选}分别表示为:且
据此,期望的工资水平为
我们假定企业的目标是使期望工资最小化的仲裁结果,工会则设法
使其最大化。若双方的要价 是这一企业和工会间博弈的纳什
均衡, 必须满足: [11]
且 必须满足:
从而,双方对工资的要价组合 必须满足上面最优化问题
的一阶条件,为:
及
(后面我们再讨论上面一阶条件的充分性)由于这两个一阶条件的
等号左边完全相同,其右边也应该相等,这意味着
即,双方要价的平均值一定等于仲裁者偏好方案的中值。把(1.2.2)代入任何两个一阶条件之一可得
它表示双方要价之差等于仲裁者偏好方案中值点概率密度的倒数。
为更好地从直观上理解这一比较静态结果,下面我们考虑一个具体
例子。设仲裁者的偏好方案遵从期望值为m,方差σ2 的正态分布,密
度函数为
(在此例中,我们还可以证明前面给出的一阶条件同时也是充分条
件。)因为正态分布在其期望值两侧的分布是对称的,因此其中值等于
其期望值m。这时(1.2.2)就成为
且(1.2.3)成为
于是,纳什均衡的要价为
和
这里,双方的均衡要价以仲裁者偏好方案的期望值(即m)为中心
对称,且要价之差随双方对仲裁者偏好方案不确定性(即σ2 )的提高
而增大。
对这一均衡结果的直观理解也很简单,博弈的每一方都需进行权
衡,一个更为激进的要价(即工会更高的要价或企业更低的出价)一旦被仲裁者选中就会给自己带来更高的收益,但其被选中的可能性却会相
应降低(在第3章第1节蜡封出价拍卖中我们还会看到相似的得失权衡:
较低的价格如果中标就会获得更好的收益,但却会减少中标的机会)。
当对仲裁者偏好方案的不确定程度增加(即σ2 变大)时,双方的要价
之所以能更为激进,是因为一个更激进的价格与仲裁者偏好方案有较大
差别的可能性变小了。相反,如果几乎不存在任何不确定性,双方都不
敢开出一个离期望值很远的要价来,因为仲裁者选择离m最近的方案的
可能性非常大。
1.2.D 公共财问题
至迟从休谟(1739)开始,政治哲学和经济学家已经认识到如果公
民只关注个人福利,公共物品就会出现短缺,并且公共资源也会过度使
用。今天,只要随便看一下地球的环境,就能体会到这一观念的力量。
哈丁(Hardin,1968)被广为引用的论文使这一问题引起了非经济学者
的关注。在此,我们分析牧场的例子。
考虑一个有n个村民的村庄,每年夏天,所有村民都在村庄公共的
草地上放牧。用gi 表示村民i放养羊的头数,则村庄里羊的总头数G=g1
+…+gn 。购买和照看一只羊的成本为c,c不随一户村民拥有羊的数目
多少而变化。当草地上羊的总头数为G时,一个村民养一只羊的价值为
υ(G)。由于一只羊要生存,至少需要一定数量的青草,草地可以放
牧羊的总数有一个上限Gmax :当G0;但G≥Gmax
时,υ(G)=0。还有,由于最初的一些羊有充足的空间放牧,再加一
只不会对已经放养的羊产生太大影响,但当草地上放养羊的总数已多到
恰好只能维生的时候(即G恰好等于Gmax 时),再增加一只就会对其他
已经放养的羊带来极大损害。用公式表述为:对,G
0,且υ(G)<0,如图1.2.4所示。图1.2.4
春天时,村民同时选择计划放养的羊的数量。假定羊是连续可分割
的,村民i的一个战略就是他选择的在村庄草地上放养羊的数量,gi 。
假设战略空间为[0,∞),它包含了可以给村民带来收益的所有可能选
择;[0,Gmax )其实也足够了。当其他村民养羊数量为(g1 ,…,gi-1
,gi+1 ,…,gn )时,村民i放养gi 只羊获得的收益为
gi ·υ(g1 +…+gi-l +gi +gi+1 +…+gn )-cgi . (1.2.4)
这样,若 为纳什均衡,则对每个村民i,当其他村民
选择 时,必须使(1.2.4)最大化。这一
最优化问题的一阶条件为
这里 代表 ,将 代入
(1.2.5),并把所有村民的一阶条件加总,然后再除以n得其中,G 表示 。但是,全社会的最优选择,用G
表示,应满足
它的一阶条件为
υ(G +G υ'(G )-c=0. (1.2.7)
将(1.2.6)与(1.2.7)相比较可知, [12] G >G :和社会最优
的条件相比,纳什均衡时放养羊的总数太多了。(1.2.5)所示的一阶
条件表示一个已经放养gi 只羊的村民再多养一只羊的收益(或更严格
一点讲,是再多养“一点儿”羊的收益)。这多出的一只羊的价值为
,其成本为c。对该村民已经养的羊的损害为每只羊
,或总共为 。公共资源被过度使用了,因为每个村民只考虑他们自己的利益,并不管其行为对其他村民带来的
后果,这就出现了(1.2.6)中的 ,而非(1.2.7)中的G
υ'(G )。1.3 理论发展:混合战略和均衡的存在性
1.3.A 混合战略
在1.1.C中我们把定义为参与者i可以选择的战略集,并且对每一个
参与者i, 为其针对另外n-1个参与者所选战略的最优反应,则战略
组合 为博弈的纳什均衡,即
对Si 中每一si 都成立。根据这一定义,下图所示“猜硬币”的博
弈是不存在纳什均衡的。
猜硬币
在此博弈中,每一参与者的战略空间都是(正面,背面)。为理解
矩阵表中所列参与者各自的收益,设想每一参与人拿有一枚硬币,并必
须选择是出正面向上还是背面向上。若两枚硬币是一致的(即全部正面
向上或全部背面向上),则参与人2赢走参与人1的硬币;如果两枚硬币
不一致(一正一反),参与人1赢得参与人2的硬币。在此博弈中,没有
一组战略能够满足(NE)的条件,因为如果参与者的战略是一致的——
(正面,正面)或(背面,背面)——那么参与人1就希望能改变战
略,如果参与者的战略不一致——(正面,背面)或(背面,正面)
——则参与人2将希望能改变战略。猜硬币博弈一个非常突出的特点是每个参与者都试图能先猜中对方
的战略。这一类博弈在扑克、棒球、战争等其他环境中也经常会发生。
在用扑克牌赌博的博弈中,类似的问题是如何决定使诈的次数:如果大
家都知道参与者i是从来不使诈的,那么任何时候当i下很高的赌注时他
的对手就会认输,但这又使得i偶然使诈会有利可图;另一方面,使诈
次数过多亦非上策。在棒球比赛中,假设投球手既可以掷出快球,又可
掷出曲线球,那么击球手能够击中任何一类投球的前提是,他能正确估
计到投球手将掷出哪一类球。与之相似,在战争中,假设进攻方可能在
两个攻击点(或两条进攻路线,比如“陆路或水路”)中选择其一,防
御方可以抵御来自任一方向的攻击,但也只在它正确预测到进攻路线的
前提下。
在博弈中,一旦每个参与者都竭力猜测其他参与者的战略选择,就
不存在纳什均衡(至少不存在第1.1.C节所定义的纳什均衡),因为这
时参与者的最优行为是不确定的,而博弈的结果必然要包含这种不确定
性。现在引入混合战略的概念,我们可以将其解释为一个参与者对其他
参与者行为的不确定性。(这一解释被豪尔绍尼(Harsanyi,1973)深
化,在第3.2.A节中我们将进一步讨论到)在下一节我们将把纳什均衡
的定义扩展到包含混合战略,从而可以分析诸如猜硬币、扑克、棒球及
战争等博弈的解出现的不确定性。
规范地表述,参与者i的一个混合战略是在其战略空间Si 中(一些
或全部)战略的概率分布,此后我们称Si 中的战略为i的纯战略(pure
strategies)。对本章所分析的完全信息同时行动博弈来说,一个参与
者的纯战略就是他可以选择的不同行动,例如在猜硬币博弈中,Si 内
含有两个纯战略,分别为正面和背面,这时参与者i的一个混合战略为
概率分布(q,1-q),其中q为出正面向上的概率,1-q为出背面向上的
概率,且0≤q≤1混合战略(0,1)表示参与者的一个纯战略,即只出
背面向上,类似地,混合战略(1,0)表示只出正面向上的纯战略。
作为混合战略的第二个例子,请回顾图1.1.1所示博弈,参与者2有
三个纯战略:左、中、右,这时他的一个混合战略为概率分布(q,r,1-q-r),其中q表示出左的概率,r表示出中的概率,1-q-r表示出右的
概率,和前面相同,0≤q≤1,且这里还应满足0≤r≤1及0≤q+r≤l。
在此博弈中,混合战略(13,13,13)表示参与者出左、中、右的
概率相同,而(12,12,0)表示出左、中的概率相同,但绝不可能
选择出右。和在所有情况下一样,参与者的一个纯战略只是混合战略的一种特例,例如参与者2只出左的纯战略可表示为混合战略(1,0,0)。
更为一般地,假设参与者i有K个纯战略:Si ={si1 ,…,siK },则参与者i的一个混合战略是一个概率分布(Ρi1 ,…,ΡiK ),其中
表示对所有k=1,…,K,参与者i选择战略sik 的概率,由于Ρik 是一
个概率,对所有k=1,…,K,有0≤Ρik ≤1且Ρi1 +…+ΡiK =1。我们
用Ρi 表示基于Si 的任意一个混合战略,其中包含了选择每一个纯战
略的概率,正如我们用si 表示内任意一个纯战略。
定义 对标准式博弈G={S1 ,…,Sn ;u1 ,…,un },假设Si =
{si1 ,…,siK }。那么,参与者i的一个混合战略为概率分布Ρi
=(Ρi1 ,…,ΡiK ),其中对所有k=1,…,K,0≤Ρik ≤1,且Ρi1
+…+ΡiK =1。
作为本节的一个小结,我们简单地回顾一下第1.1.B节中介绍的严
格劣战略,并说明混合战略对那里的论证所起的潜在作用。当时讲到,如果战略si 为严格劣战略,那么参与者i不可能作出这样的推断(针对
其他参与者的战略选择),他的最优反应战略会是si 。如果我们引入
混合战略,就可证明其逆命题:如果(针对其他参与者的战略选择)参
与者i都不可能作出这样的推断,即其战略si 会成为最优反应战略,则
一定存在另一战略严格优于si 。 [13] 图1.3.1和图1.3.2所示博弈说明
了如果我们只讨论纯战略,这一逆命题是不成立的。图1.3.1
图1.3.1显示出,一个给定的纯战略可能会严格劣于一个混合战
略,即使这个纯战略并不严格劣于其他任何一个纯战略。在这一博弈
中,针对参与人1对参与人2可能行动所作出的任何推断(q,1-q),1
的最优反应要么是T(在q≥12时),要么是M(在q≤l2时),但不会
是B,虽然T或M都不严格优于B。这里的关键在于B是T和M的一个混合战
略的严格劣战略:如果参与者1以12的概率出T,以12的概率出M,则
其期望收益为32,不管2将会选择什么(纯的或混合的)战略,32都
大于选择B时将得到的收益1。这个例子说明了在“寻找另外一个严格优
于的战略”时,混合战略所起的作用。图1.3.2
图1.3.2说明了一个给定的纯战略可以是针对一个混合战略的最优
反应,即使这一纯战略并不是对方任何一个纯战略的最优反应。在此博
弈中,对参与人2的纯战略L和R来说,参与人1的最优反应都不是B,但B
却是针对参与人2的混合战略(q,1-q)9当13
优反应。这一例子说明了混合战略在“参与者i可能持有的推断”中的
作用。
1.3.B 纳什均衡的存在性
本节讨论和纳什均衡的存在性相关的几个问题。第一,我们把第
1.1.C节中纳什均衡的定义扩展到包含混合战略的情况;第二,我们应
用这一扩展后的定义求解猜硬币博弈和性别战博弈的纳什均衡;第三,我们用图示的方法证明任何一个参与者有两个纯战略的两人博弈都存在
纳什均衡(可能包含了混合战略);最后,给出并讨论纳什定理
(1950),它保证了在任何有限博弈(即有限个参与者,并且每个参与
者可选择的纯战略有限的所有博弈)中,都存在纳什均衡(仍可能会包
含混合战略)。
回顾第1.1.C节给出的纳什均衡定义,保证了每一参与者的纯战略
都是其他参与者纯战略的最优反应战略。为把这一定义扩展到包含混合
战略的情况,我们只需要求每一参与者的混合战略是其他参与者混合战略的最优反应。由于任何纯战略都可表示为混合战略——只要令该参与
者所有其他纯战略出现的概率等于0——扩展后的定义完全包括了前一
定义。
对参与者i来讲,参与者j的混合战略代表了他对j将选择战略的不
确定性,并据此计算参与者i对j混合战略的最优反应。我们先以猜硬币
博弈为例,假定参与者1推断参与者2会以q的概率出正面,以1-q的概率
出背面,亦即参与者1推断参与者2将使用混合战略(q,l-q)。据此推
断,参与者1出正面可得的期望收益为q(-1)+(1-q)·1=1-2q,出背
面的期望收益为q·1+(1-q)(-1)=2q-1。由于当且仅当q2q-1,则q<12时,参与者1的最优纯战略为出正面;q>l2时
为出背面;当q=12时,参与者1出哪一面都是无差异的。余下的就是参
与者1可能的混合战略反应。
令(r,l-r)表示参与者1的混合战略,其出正面的概率为r,对任
意0到1之间的q,现在我们计算r的值,用r (q)表示,从而使(r,1-r)为参与者2选择(q,1-q)时参与者1的最优反应,其结果可以表
示为图1.3.3。当参与者2选择(q,1-q)时,参与者1选择(r,1-r)
的期望收益为:
rq·(-1)+r(l-q)·1+(1-r)q·1+(1-r)(l-q)·(-1)
=(2q+1)+r(2-4q) (1.3.1)
其中,rq是(正面,正面)的概率,r(l-q)是(正面,背面)的
概率,如此等等。 [14] 由于参与者1的期望收益在2-4q>0时随r递增;
在2-4q<0时随r递减,则如果q<12,参与者1的最优反应为r=l(即出
正面);如果q>12,参与者1的最优反应为r=0(即出背面),如图
1.3.3所示r (q)两段水平虚线。这一表述比上面非常相近的表述条
件要强:那里我们只考虑纯战略,并发现如果q<12,正面为最优纯战
略,如果q>12,背面为最优纯战略;这里我们考虑所有的纯战略和混
合战略,同样发现如果q<12,正面是所有战略(包含纯战略和混合战
略)中的最优选择,如果q>12,背面是所有战略中最优的。图1.3.3
当q=12时,参与者对(q,1-q)最优反应的性质有所变化。前面
已经提到,在q=l2时,参与者1选择纯战略正面或背面是无差异的。而
且,因为参与者1在(1.3.1)中的期望收益在q=12时与r无关,所有混
合战略(r,1-r)对1都是无差异的。也就是说,当q=12时,对于0到1
之间的任何r,混合战略(r,1-r)都是(q,1-q)的最优反应。那
么,r (12)就是[0,1]间的整个区间,即图1.3.3所示r (q)中
间的竖线段。在第1.2.A节分析古诺模型时,我们称ri (qj )为企业i
的最优反应函数。在这里,因为存在一个q的值,使r (q)有不止一
个解,我们称r (q)为参与者1的最优反应对应(best-response
correspondence)。
为在更为一般的条件下推导出参与者i对参与者j混合战略的最优反应,进一步给出扩展的纳什均衡的正式定义,我们首先分析两个参与者
的情况,从而可以通过最简单的方式说明主要思想。令J表示S1 中包含
纯战略的个数,K表示S2 包含纯战略的个数,则S1 ={s11 ,…,s1J
},S2 ={s21 ,…,s2K },我们用s1j 和s2k 分别表示S1 、S2 中任意一
个纯战略。
如果参与者1推断参与者2将以(Ρ21 ,…,Ρ2k )的概率选择战
略(s21 ,…,Ρ2k ),则参与者1选择纯战略s1j 的期望收益为:
且参与者1选择混合战略P1 (Ρ11 ,…,Ρ1J )的期望收益为:
其中,Ρ1j ×Ρ2k 表示参与者选择s1j 且参与者2选择s2k 的概
率。根据(1.3.3),参与者1选择混合战略P1 的期望收益,等于按
(1.3.2)给出的每一个纯战略{s11 ,…,s1J }的期望收益的加权和,其权重分别为各自的概率(Ρ11 ,…,Ρ1J ),那么,参与者1的混合
战略(Ρ11 ,…,Ρ1J )要成为他对参与者2战略P2 的最优反应,其
中任何大于0的Ρ1j 相对应的纯战略必须满足:
对S1 中每一个s'1j 都成立。这表明,一个混合战略要成为P2 的最
优反应,混合战略中每一个概率大于0的纯战略本身也必须是对P2 的最
优反应。反过来讲,如果参与者1有n个纯战略都是P2 的最优反应,则
这些纯战略全部或部分的任意线性组合(同时其他纯战略的概率为0)
形成的混合战略同样是参与者1对P2 的最优反应。
为给出扩展的纳什均衡的正式定义,我们还需要计算当参与者1和2分别选择混合战略P1 和P2 时参与者2的期望收益。如果参与者2推断参
与者1将分别以(Ρ11 ,…,Ρ1J )的概率选择战略{s11 ,…,s1J }
则参与者2分别以概率(Ρ21 ,…,Ρ2k )选择战略(s21 ,…,s2k)时的期望收益为
在给出υ1 (P1 ,P2 )和P2 )后,我们可以重新表述纳什均衡的
必要条件,即每一参与者的混合战略是另一参与者混合战略的最优反
应:一对混合战略( , )要成为纳什均衡, 必须满足
对S1 中战略所有可能的概率分布P1 都成立,并且 必须满足
对S2 中战略所有可能的概率分布P2 都成立。
定义 在两个参与者标准式博弈G={S1 ,S2 ;u1 ,u2 }中,混合战
略 是纳什均衡的充要条件为:每一参与者的混合战略是另一
参与者混合战略的最优反应,即(1.3.4)和(1.3.5)必须同时成立。
下面我们用这一定义分析猜硬币博弈和性别战博弈,为此,我们运
用图1.3.3中介绍的图示法,把参与者i对参与者j混合战略的最优反应
在图上表示出来。为完成图1.3.3的内容,还需计算最优的q值,用q
(r)表示,从而使(q,l-q)成为参与者2对参与者1战略(r,1-r)
的最优反应。结果如图1.3.4所示,如果r<12,则2的最优反应为背
面,于是q (r)=0;相似地,如果r>12,则2的最优反应是正面,于是q (r)=1。如果r=12,则不仅参与者2出正面和出背面是无差别
的,而且对其所有混合战略(q,1-q)也都完全相同,于是q (12)
为整个区间[0,1]。图1.3.4
把图1.3.4的纵轴和横轴互换并旋转,我们得到图1.3.5。单纯表示
参与者2对参与者1混合战略的最优反应,图1.3.5不如图1.3.4更加直
观,但它可与图1.3.3合并成图1.3.6。图1.3.6和第1.2.A节分析古诺模
型时的图1.2.1相类似,正如那里的最优反应函数r2(q1 )和r1 (q2)的交点确定了古诺博弈的纳什均衡,在这里最优反应对应r (q)和
q (r)的交点给出了猜硬币博弈的混合战略纳什均衡:如果参与者i
的战略是(12,12),则参与者j的最优反应为(12,12),它满
足纳什均衡的要求。图1.3.5图1.3.6
应该强调的是,这样一个混合战略纳什均衡并不是建立在任何参与
者扔硬币、掷骰子或其他随机选择行为的基础之上,我们可以把参与者
j的混合战略解释为参与者i对参与者j将会选择哪一个(纯)战略的不
确定性。例如在棒球比赛中,投球手也许是基于以往投球的成功率决定
是投快速直线球还是投曲线球。如果击球手了解投球手是如何选择的,但并不能观察到他以往的成功率,那么击球手就可能会推断投球手投出
快球和投出直线球的可能性是相等的。这时我们把击球手的推断表示为
投球手采取混合战略(12,12),而事实上投球手是基于击球手所不
了解的信息选择一个纯战略。更为一般地讲,我们可以理解为参与者j
被赋予了一小点儿内部信息,基于他所掌握的内部信息,参与者j更倾
向于选择某一相关的纯战略。不过,由于参与者i并不能观测到j的私人
信息,i并不能确定j的选择,我们用j的混合战略表示i的这种不确定
性。在第3.2.A节,我们还将为这种对混合战略的解释提供更为正式的表述。
作为混合战略纳什均衡的第二个例子,考虑第1.1.C节中的性别战
博弈,令(q,1-q)为帕特的一个混合战略,其中他选择歌剧的概率为
q,且令(r,1-r)为克里斯的一个混合战略,其中他选择歌剧的概率
为r。如果帕特的战略为(q,1-q),则克里斯选择歌剧的期望收益为
q×2+(1-q)×0=2q,选择拳击的期望收益为q×0+(l-q)×1=1-q。
从而,在q>13时,克里斯的最优反应为歌剧(即r=1);q<13时,克里斯的最优反应为拳击(即r=0);q=l3时,任何可行的r都是最优
反应。类似地,如果克里斯的战略为(r,1-r),则帕特选择歌剧的期
望收益为r×1+(1-r)×0=r,选择拳击的期望收益为r×0+(1-r)
×2=2(1-r)。从而,r>23时,帕特的最优反应是歌剧(即q=l);r
<23时,帕特的最优反应是拳击(即q=0),r=23时,任何可行的q值
都是最优反应。如图1.3.7所示,最优反应对应的交点之一,即帕特的
混合战略(q,1-q)=(13,23)与克里斯的混合战略(r,1-r)
=(23,13)就是原博弈的一个纳什均衡。图1.3.7
本例和图1.3.6的不同之处在于,后者两位参与者的最优反应对应
只有一个交点,图1.3.7中r (q)和q (r)有三个交点:(q=0,r=0)、(q=1,r=1)及(q=13,r=23)。另外两个交点分别代表了
第1.1.C节讲过的两个纯战略纳什均衡(拳击、拳击)和(歌剧,歌
剧)。
在任何博弈中,一个纳什均衡(包括纯战略和混合战略均衡)都表
现为参与者间最优反应对应的一个交点,即使该博弈的参与者在两人以
上,或有些或全部参与者有两个以上的纯战略。不过遗憾的是,惟一一
种可以用图形简明表示出参与者之间最优反应对应的博弈,就是上面介
绍的每个参与者只有两个纯战略的两人博弈。下面我们用图示法论证任
何这种两人博弈都存在纳什均衡(可能包含了混合战略)。图1.3.8
考虑图1.3.8给出的参与者1的收益情况。x和z,y和w各自的相对大
小对博弈的结果十分重要,由此可以分为以下四种主要情况:(i)x>
z且y>w,(ii)xz且yw。
我们首先讨论这四种主要情况,然后再分析涉及x=z或y=w时的情况。
图1.3.9
对参与者1,在情况(i)中,上严格优于下;在情况(ii)中,下
严格优于上。根据前面讲过的严格劣战略定义:当且仅当参与者i(对
其他参与者所选择的战略)不能作出这样的推断,使选择战略si 成为
最优反应,则si 为严格劣战略。因此,如果(q,1-q)是参与者2的一
个混合战略,其中q为2选择左的概率,那么在情况(i)中,没有q能使
参与者1选择下成为最优,并且在情况(ii)中,没有q能使1选择上成为最优。令(r,1-r)表示参与者1的一个混合战略,其中r是1选择上
的概率,我们可以在图1.3.9中分别表示出情况(i)和情况(ii)下的
最优反应对应。(在这两种情况下,最优反应对应事实上也是最优反应
函数,因为没有q值使得参与者1有多个最优反应。)
图1.3.10
在情况(iii)和情况(iv)中,上和下都不是严格劣战略,那
么,必定对某些q值,选择上是最优的,对另一些q值,选择下是最优
的。令q'=(w-y)(x-z+w-y),那么在情况(iii)中,q>q'时上是
最优的,q
1.3.10给出。
由于x=z时,q'=1,而y=w时,q'=0,所有包含x=z或:y=w的情况
下,最优反应对应将呈“L”状(即单位正方形中相邻的两条边)我们
可设想图1.3.10中(iii)或(iv),在q'=0及q'=1时的情况。
在图1.3.8中分别加入任意的参与者2的收益值,经过与上面类似的
计算可得同样的四个最优反应对应,只不过与图1.3.4相同,水平轴代
表r值,而纵轴代表q值。做从1.3.4到1.3.5同样的处理,旋转这四个图
形的坐标系,可以得到图1.3.11和图1.3.12(在图1.3.12中,对r'的定
义与图1.3.10中q'类似)。
决定性的一点在于,给定参与者1的四种最优反应对应的任何一
种,即图1.3.9或图1.3.10中的任何一条r (q),及参与者2的任何四种之一,即图1.3.11或图1.3.12中的任何一条q (r),这一组最优反
应对应至少有一个交点,于是博弈至少有一个纳什均衡,对16种可能的
最优反应对应组合情况进行逐一检验,我们留在习题中进行。这里只定
性地给出可以得到的结论。可能出现的情况有:(1)惟一的纯战略纳
什均衡,(2)惟一的混合战略纳什均衡,(3)两个纯战略纳什均衡和
一个混合战略纳什均衡。前面讲过的图1.3.6的猜硬币博弈是第二种情
况的一个例子,图1.3.7的性别战博弈是第三种情况的一个例子。囚徒
困境则属于第一种情况,它是由r (q)的(i)或(ii)和q (r)
的(i)或(ii)结合产生的。 [15]
图1.3.11图1.3.12
本节的最后,我们讨论在更为一般的博弈中纳什均衡的存在性。如
果上面关于两人两个纯战略博弈的论证不使用图示的方法,而用数学方
法,则可以适用于一般的任意有限战略空间的n人博弈。
定理 (纳什,1950):在n个参与者的标准式博弈G={S1 ,…,Sn;u1 ,…,un }中,如果n是有限的,且对每个i,Si 是有限的,则
博弈存在至少一个纳什均衡,均衡可能包含混合战略。图1.3.13
纳什定理的证明要用到不动点定理。作为不动点定理的一个简单例
子,假定f(x)是一个定义域和值域都在[0,1]之间的连续函数,则布
劳尔(Brouwer)的不动点定理保证了存在至少一个固定的点——即在
[0,1]中存在至少一个值x ,使f(x )=x 。图1.3.13给出了一个例
子。
运用不动点定理证明纳什定理包含两个步骤:(1)证明一个特定
对应上的任何不动点都是纳什均衡;(2)使用一个恰当的不动点定理
证明这一对应一定有一个不动点。这里所说的对应指n人最优反应对
应,所指的“恰当的不动点定理”应归功于角谷(Kakutani,1941),他将布劳尔的定理从函数推广到(符合一定条件的)对应。
n人最优反应对应由n个单个参与人的最优反应对应通过下述计算得
出:考虑任意的一个混合战略组合(Ρ1 ,…,Ρn ),对每一个参与
者i,求出i针对其他参与者混合战略(Ρ1 ,…,Ρi-1 ,Ρi+1 ,…,Ρn )的最优反应。然后构建每一参与者一个上述最优反应的所有可能
组合的集合(正式地说,即导出每一参与者的最优反应对应,然后构建
这n个参与者最优反应对应的交叉积(笛卡尔积))。一个混合战略组
合 是这一对应集中的不动点,如果 属于参与
者对 的最优反应的所有可能组合的集合。即,对每个
i, 必须是参与者i对 的最优反应(之
一),这又恰好符合纳什均衡的条件,即 是一个纳什均
衡。这就完成了第(1)步。
图1.3.14
第(2)步的证明要用到每一参与者的最优反应对应都在某种条件
下连续这一事实。在布劳尔的不动点定理中连续性的作用可在图1.3.13
构建的f(x)看出:如果f(x)是不连续的,不动点就不一定存在。例
如在图1.3.14中,对所有xx,但对x≤x',f(x)<
x'。 [16] 为理解图1.3.14中的f(x)和参与者的最优反应对应的不同之
处,考虑图1.3.10中的情况(Ⅲ):当q=q'时,r (q)包括了0、1以及中间整个区间(稍微正式一点表述,即r (q')包括了当q从左侧靠
近q'时,r (q)的极限,以及q从右侧靠近q'时,r (q)的极限,并且包括这两个极限之间的所有r值)。如果图1.3.14中f(x')要成为
类似的参与者1的最优反应对应r (q')’则f(x')的值不仅应包含
实心点(如图所示),还应包含空心点及整个虚线区间,这时f(x)就
会在x'有一个不动点。
每个参与者的最优反应对应总是如图1.3.10所示的r (q'):它
总是包括(借用的一般意义上的)从左侧的极限、从右侧的极限以及其
间的所有值。其原因在前面讨论两个参与者的情况时已经证明:如果参
与者i有n个纯战略都是其他参与者混合战略的最优反应,则参与者i的
这些最优纯战略的任意概率的线性组合(并令其他纯战略的概率为0)
得到的混合战略Pi ,亦是参与者i的最优反应。由于每一参与者的最优
反应对应总是具有这一特性,n人最优反应对应亦具有这一特性;这就
满足了角谷的假定,于是n人最优反应对应有一个不动点。
纳什定理保证了相当广泛种类博弈中均衡的存在性,但第1.2节应
用举例所分析的博弈却不在此列(因为每一参与者的战略空间都是无限
的)。这说明纳什定理中的假定是均衡存在性的充分条件,却不是必要
条件——还有许多博弈,虽不满足定理假定的条件,却同样存在一个或
多个纳什均衡。1.4 进一步阅读
关于重复剔除严格劣战略和纳什均衡的假定,及借用参与者的推断
来解释混合战略,参见布兰登贝格尔(1992)。关于(古诺型)企业选
择产量模型和(贝特兰德型)企业选择价格模型之间的关系,参见克雷
普斯和谢克曼(Scheikman,1983),他们证明在某些条件下,企业面
临生产能力的约束时(企业在选择价格之前,要付出一定成本选择生产
能力),贝特兰德型模型会出现古诺模型的结果。关于仲裁,参见吉本
斯(Gibbons,1988),他说明了在最后要价仲裁及协议仲裁中,仲裁
者所偏好的方案如何依赖于各方的要价中所包含的信息。最后,关于纳
什均衡的存在性,包括纯战略在战略空间中连续的博弈,请参考达斯古
普塔和马斯金(DasguptaMaskin,1986)。1.5 习题与练习
第1.1节
1.1 什么是博弈的标准式?在博弈的标准式中,什么是严格劣战
略?什么是一个纯战略纳什均衡?
1.2 在以下博弈的标准式中,哪些战略不会被重复剔除严格劣战略
所剔除?纯战略纳什均衡又是什么?
1.3 两个人就如何分配一元钱进行谈判,双方同时提出各自希望得
到的份额,分别为s1 和s2 ,且0≤s1 ,s2 ≤1。若s1 +s2 ≤1,则二
人分别得到他们所要的一份;如果s1 +s2 >1,则两个人均一无所获。
求出此博弈的纯战略纳什均衡。
第1.2节
1.4 假定古诺的寡头垄断模型中有n个企业,令qi 代表企业i的产
量,且Q=q1 +…+qn 表示市场总产量,p表示市场出清价格,并假设反
需求函数由p(Q)=a-Q给出(设Q
数c,这里我们设c
求出博弈的纳什均衡。当n趋于无穷时,将会发生什么情况?
1.5 考虑以下两个古诺双头垄断模型的战略空间有限的情况。第
一,假定每个企业必须选择要么生产垄断产出的一半qm 2=(a-
c)4,要么生产古诺均衡产量qc =(a-c)3,任何其他产量都是不允
许的。证明这一非此即彼的博弈是一个囚徒困境式的问题:每一个企业
都有一个严格劣战略,并且在均衡状态下,每一企业的福利都要比他们
相互合作时下降。第二,假设每个企业可以选择qm 2或qc 或第三种产
量q',求出一个q'的值,使得这一博弈在以下方面等价于第1.2.A节中
的古诺模型,即(qc,qc)是惟一的纳什均衡,并且在均衡状态下,每
一企业的福利都比他们相互合作时要低,但两个企业都没有严格劣战
略。
1.6 考虑在古诺双头垄断模型中,反需求函数为p(Q)=a-Q,但两
企业有不同的边际成本,企业1为c1 ,企业2为c2 ,求出当每个企业0
a+c1 ,纳什均衡
又有什么变化?
1.7 在第1.2.B中,我们分析了产品有差异的贝特兰德双头垄断模
型。同质产品的情况下结论是十分明显的。假设时,消费者对企业i产
品的需求为a-pi ,pi >pj 时为0,pi =pj 时为(a-pi )2。同时假
设不存在固定成本,且边际成本为常数c,这里c
时选择价格,则惟一的纳什均衡就是每个企业的定价均为c。
1.8 设有一批选民在一个单位区间从左(x=0)至右(x=1)均匀分
布,为一个职位参加竞选的每个候选人同时选择其竞选基地(即在x=0
到x=1中间的一个点)。选民观察候选人的选择,然后每一投票人把票
投给其基地离自己最近的候选人。比如,如果有两个候选人,他们分别
在x1 =0.3和x2 =0.6选择基地,则处于x=0.45左边的所有选民都会把票
投给候选人1,右边的人都会把票投给候选人2,这样候选人2就可以得
到55%的选票赢得这场选举。假设候选人只关心他能否当选——他们根
本上一点都不关心其基地!如果有两个候选人,博弈的纯战略纳什均衡
是什么?如果有三个候选人,求出一个纳什均衡。(假设选择同一个基
地的候选人将平分这一基地可得的选票,得票最高的候选人不止一人
时,谁当选由掷硬币来决定。)参见霍特林(Hotelling,1929)关于此类博弈的早期模型。
第1.3节
1.9 什么是标准式博弈的混合战略?什么是标准式博弈的混合战略
纳什均衡?
1.10 证明在1.1节中所分析的3个标准式博弈——囚徒困境、图
1.1.1和图1.1.4中,不存在混合战略纳什均衡。
1.11 解出习题1.2所给博弈的混合战略纳什均衡。
1.12 求出下面标准式博弈的混合战略纳什均衡。
1.13 两个企业各有一个工作空缺,假设企业所给的工资不同(其
原因不在此处讨论,但关系到每一个空缺的价值):企业i给的工资为
wi ,这里(12)w1
份工作,两人同时决定是申请企业1的工作,还是向企业2申请。如果只
有一个工人向一个企业申请,他就会得到这份工作;如果两个工人同时
向一个企业申请工作,则企业随机选择一个工人,另一人就会失业(这
时收益为0)。解出两工人标准式博弈的纳什均衡。(要更进一步了解
企业是如何决定工资的,请参阅蒙哥马利(Montgomery),1991)1.14 证明附录1.1.C中的命题B不仅对纯战略成立,对混合战略同
样成立:在混合战略纳什均衡中,概率大于0的战略一定不会被重复剔
除严格劣战略所剔除。1.6 参考文献
Aumann,R.1974.“Subjectivity and Correlation in
Randomized Strategies”.Journal of Mathematical Economics1:67
—96.
——.1976.“Agreeing to Disagree.”Annals of Statistics4:
1236—39.
——.1987.“Correlated Equilibrium as an Expression of
Bayesian Rationality.”Econometrica55:1—18.
Bertrand,J.1883.“Theorie Mathematique de la Richesse
Sociale.”Journal des Savants499—508.
Brandenburger,A.1992.“Knowledge and Equilibrium in
Games.”Forthcoming in Journal of Economic Perspectives.
Cournot,A.1838.Recherches sur Les Principes Mathematiques
de la theorie des Richesses.English edition:Researches into
the Methematical Principles of the Thoery of Wealth.Edited by
N.Bacon.New York:Macmillan,1897.
Dasgupta,P.,and E.Maskin.1986.“The Existence of
Equilibrium in Discontinuous Economic Games,I:
Theory.”Review of Economic Studies53:1—26.
Farber,H.1980.“An Analysis of Final-Offer
Arbitration.”Journal of Conflict Resolution35:683—705.
Friedman,J.1971.“A Noncooperative Equilirium for
Supergames.”Review of Economic Studies28:1—12.
Gibbons,R.1988.“Learning in Equilibrium Models of
Arbitration.”American Economic Review78:896—912.
Hardin,G.1968“The tragedy of the Commons.”Science162:
1243—48.
Harsanyi,J.1973.“Games with Randomly Disturbed Payoffs:A New Rationale for Mixed Strategy Equilibrium
Points.”International Journal of Game Theory2:1—23.
Hotelling,H.1929.“Stability in Competition.”Economic
Journal39:41—57.
Hume,D.1739.A Treatise of Human Nature.Reprint.London:
J.M.Dent.1952.
Kakutani,S.1941.“A Generalization of Brouwer’s Fixed
Point Theorem.”Duke Mathematical Journal8:457—59.
Kreps,D.,and J.Scheinkman.1983.“Quantity Precommitment
and Bertrand Competition Yield Cournot Outcomes.”Bell Journal
of Economics14:326—37.
Montgomery,J.1991.“Equilirium Wage Dispersion and
Interindustry Wage Differentials.”Quarterly Journal of
Economics106:163—79.
Nash,J.1950.“Equilibrium Points in n-Person
Games.”Proceedings of the National Academy of Sciences36:48
—49.
Pearce,D.1984.“Rationalizable Strategic Behavior and the
Problem of Perfection.”Econometrica52:1029—50.
Stackelberg,H.von.1934.Marktform und
Gleichgevuicht.Vienna:Julius Springer.
[1] 相应的逆命题也很有趣:如果某一参与者(对其他参与者选择的战略)无法作出这样的推
断,从而使战略si 成为他的最优反应,我们能否得到结论,一定存在另一战略是si 的严格占
优战略?答案是肯定的。前提是对“推断”和“另一战略”的正确理解,两者都涉及到将在第
1.3.A节中介绍的混合战略。
[2] 本书的绝大多数例子都取自经济学的实际应用,而很少使用纯数字的抽象例子,这不仅因
为应用本身往往饶有趣味,还因为应用经常是解释理论的较好方式。不过在说明一些基本的理
论原理时,我们有时也求助于没有现实经济含义的抽象例子。
[3] 在第1.3.A节中,我们将区分纯战略和混合战略,那时我们就会看到此处所给的纳什均衡定
义是指纯战略均衡,但有时也可能有混合战略均衡存在。除非有明确说明,本节所说纳什均衡
都是指纯战略均衡。
[4] 这一结论即使在不限于纯战略的条件下也同样成立,因为在这些战略中不存在混合战略纳
什均衡。参见习题1.10。[5] 在第1.3.B节中,我们将描述性别战博弈的第三个纳什均衡(含有混合战略)。不同于(歌
剧,歌剧)和(拳击,拳击)的是,该第三均衡有对称的收益——正如在对称博弈中存在惟一
均衡的情况一样;另一方面,该第三均衡仍是无效率的,因为它的导出违背了协议的原则。不
过,无论我们对性别战博弈中的纳什均衡如何评判,上面的命题仍是成立的:即存在博弈论无
法惟一解,并无法达成协议的博弈。
[6] 企业不选择产出而选择价格的贝特兰德模型(1883),我们将在第1.2.B节进行讨论;企业
选择产量,但一个企业先选,并可被另一企业观察到的斯塔克尔贝里模型(1934)我们将在第
2.1.B节介绍。最后,在第2.3.C中我们还要讨论弗里德曼(Friedman,1971)的模型,其中古
诺模型中两个企业的相互影响多次重复发生。
[7] 请注意这里我们的表示有一个小的变化,使用ui (si ,sj )而非ui (s1 ,s2 ),两
者都表示参与者i的收益是所有参与者所选择战略组合的函数。后面(及在类似的n人博弈中)
我们将穿插使用这两种表示方法。
[8] 这两步证明都有一点儿不完整,因为我们没有考虑当企业i拿不准qj 时的最优反应。设想
企业i不清楚qj ,但相信qj 的期望值为E(qj )。因为πi (qi ,qj )对于qj 是线性的,这种条件下企业i不确定qj 时的最优反应简单等于它确定企业j将选择E(qj )时的最优反应
——书中已有这样的例子。
[9] 这一应用中将涉及一些基本的概率论概念:累计概率分布、概率密度函数和期望值。需要
时我们会给出简单的定义和解释;详细资料请查阅任何一种介绍概率论的教材。
[10] 即,x小于任意值x 的概率可表示为F(x ),并且对x ,导出上面分布的概率密度为
f(x )。由于F(x )是一个概率,所以对任意x 都有0≤F(x )≤1。还有,如果x >
x 则F(x ≥F(x ),于是对任何x ,f(x )≥0。
[11] 下面在建立和求解企业与工会的最优化条件时,我们假定企业的出价总低于工会的要价。
其后,我们将会证明这一假定的正确性。
[12] 如果我们设G ≤G ,那么由于υ'<0,υ(G )≥υ(G ))。类似地,由于
υ<0,有0>υ'(G )≥υ'(G )。最后,G n
格大于(1.2.7)式的左边,但这是不可能的,因为两式的右边都等于0。
[13] 皮尔斯(Pearce,1984)在两人博弈中证明了这一结论,并证明在参与者之间的混合战略
允许相关的条件下,该结论在n人博弈中同样成立,即必须允许参与者i对参与者j行动的推断与
其对参与者k行动的推断相关。奥曼(1987)提出这样的相关性在i的推断中是非常自然的,即
使在j和k是完全独立地作出选择的情况下。例如,i可能会知道j和k都要去商学院,或也许去同
一所商学院,但也许不会知道那里面教授什么课程。
[14] 如果概率(A且B)=概率(A)×概率(B),则事件A和B是独立的。那么,在用rq表示1出
正面同时2也出正面时,我们已隐含了假定1和2相互独立地进行选择,这与我们对同时行动博弈
的限定是一致的。参见奥曼(1974)对相关均衡的定义,它应用于参与者的选择可以相关的博
弈。(由于参与者在选择战略之前观察到一个随机结果,比如硬币在桌面上的转动。)
[15] 包含x=z或y=w时的情况并不违背一组最优反应对应至少有一个交点的结论。相反,除书中
讲到的那3种情况外,还可能存在两个纯战略纳什均衡无混合战略纳什均衡以及连续的纳什均衡
的情况。
[16] f(x')的值由实点决定,空心点表示f(x')不包含这一值。中间的虚线只表示x=x'时,可能取到两个点的值,但不代表也会取到中间任何一点的值。第2章 完全信息动态博弈
本章介绍动态博弈。我们仍集中分析完全信息的博弈(即参与者的
收益函数是共同知识的博弈);有关非完全信息的博弈将在第3章介
绍。其中第2.1节分析完全且完美信息的动态博弈,这是指在博弈进行
的每一步当中,要选择行动的参与者都知道这一步之前博弈进行的整个
过程。从第2.2节到第2.4节,我们讨论完全但不完美信息博弈:在博弈
的某些阶段,要选择行动的参与人并不知道在这一步之前博弈进行的整
个过程。
所有动态博弈的中心问题是可信任性。作为不可置信的威胁的一个
例子,考虑下面两步博弈。第一,参与者1选择支付1000美元钱给参与
者2还是一分不给;第二,参与者2观察参与者1的选择,然后决定是否
引爆一颗手雷把两人一块儿炸死。假设参与者2威胁参与者1,如果他不
付1000美元就引爆手雷,如果参与者1相信这一威胁,他的最优反应是
支付1000美元,但参与者1却不会对这一威胁信以为真,因为它不可置
信:如果给参与者2一个机会,让他把威胁付诸实施,参与者2也不会选
择去实施它,这样参与者1就会一分不付。 [1]
第2.1节分析如下类型完全且完美信息的动态博弈:首先参与者1行
动,参与者2先观察到参与者1的行动,然后参与者2行动,博弈结束。
手雷博弈即属这一类型,斯塔克尔贝里(1934)的双头垄断模型,里昂
惕夫(Leontief,1946)的有工会企业中的工资和就业决定模型亦属这
一类博弈。我们定义此类博弈的逆向归纳解(backwards-induction
outcome)并简要讨论它与纳什均衡的关系(这一关系的详细讨论在第
2.4节)。作为例子,我们解出在斯塔克尔贝里和里昂惕夫模型中的逆
向归纳解,并对鲁宾斯坦(Ru-binstein,1982)的讨价还价模型推导
出相似的结果,尽管后面的博弈有潜在无穷多步的行动,因此并不属于
以上类型的博弈。
第2.2节丰富了前一节分析的博弈类型:首先参与者1和2同时行
动,接着参与者3和4观察到1和2选择的行动,然后参与者3和4同时行
动,博弈结束。这里的同时行动意味着此类博弈有不完美信息(这一点
在第2.4节将进一步给出解释)。我们定义这种博弈的子博弈精炼解
(subgame-perfect outcome),它是逆向归纳方法在此类博弈中的自然延伸。在应用举例中,将解出戴蒙德和迪布维格(DiamondDybvig,1983)的银行挤提模型、拉齐尔和罗森(LazearRosen,1981)的锦标
赛模型的结果。
第2.3节研究重复博弈(repeated game),它指一组固定的参与者
多次重复进行同一给定的博弈,并且在下次博弈开始前,参与者都可以
观察到前面所有博弈的结果。这里分析的中心问题是(可信的)威胁和
对以后行为所做的承诺可以影响到当前的行为。我们给出重复博弈中子
博弈精炼纳什均衡的定义,并将其与第2.1节中的逆向归纳解和第2.2节
中子博弈精炼解联系起来,还将给出无限次重复博弈中的无名氏定理
(Folk Theorem)及其证明。在应用举例中,将分析弗里德曼(1971)
的古诺双头垄断企业相互串谋模型,夏皮罗和施蒂格利茨
(ShapiroStiglitz,1984)的货币政策模型。
第2.4节我们介绍分析一般的完全信息动态博弈所需要的工具,不
再区分信息是否是完美的。我们定义博弈的扩展式表述并将其与第一章
介绍的标准式表述相互联系起来,同时定义一般博弈中的子博弈精炼纳
什均衡。本节和本章的重点都在于,一个完全信息动态博弈可能会有多
个纳什均衡,但其中一些均衡也许包含了不可置信的威胁或承诺,子博
弈精炼纳什均衡则是通过了可信性检验的均衡。2.1 完全且完美信息动态博弈
2.1.A 理论:逆向归纳法
手雷博弈属于下面简单类型的完全且完美信息动态博弈:
1.参与者1从可行集A1 中选择一个行动a1 ,2.参与者2观察到之后从可行集A2 中选择一个行动a2 ,3.两人的收益分别为u1 (a1 ,a2 )和u2 (a1 ,a2 )。
许多经济问题都符合这种博弈, [2] 其中的两个例子(后面将进行
详细讨论)是斯塔克尔贝里的双头垄断模型和里昂惕夫的有工会企业工
资和就业模型。其他的经济问题可通过允许更长的行动序列建立模型:
或者加入更多的参与者,或者允许参与者有多步行动(在第2.1.1节讨
论的鲁宾斯坦的讨价还价模型就是后者的一个例子)。完全且完美信息
动态博弈的主要特点是:(i)行动是顺序发生的,(ii)下一步行动
选择之前,所有以前的行动都可被观察到,及(iii)每一可能的行动
组合下参与者的收益都是共同知识。
我们可以通过逆向归纳法求解此类博弈问题,方法如下。当在博弈
的第二阶段参与者2行动时,由于其前参与者1已选择行动a1 ,他面临
的决策问题可用下式表示:
假定对A1 中的每一个a1 ,参与者2的最优化问题只有惟一解,用R2
(a1 )表示,这就是参与者2对参与者1的行动的反应(或最优反
应)。由于参与者1能够和参与者2一样解出2的问题,参与者1可以预测
到参与者2对1每一个可能的行动a1 所作出的反应,这样1在第一阶段要
解决的问题可归结为:
假定参与者1的这一最优化问题同样有惟一解,表示为a1 ,我们称(a1 ,R2 (a1 ))是这一博弈的逆向归纳解。逆向归纳解不含有
不可置信的威胁:参与者1预测参与者2将对1可能选择的任何行动a1 做
出最优反应,选择行动R2 (a1 );这一预测排除了参与者2不可置信
的威胁,即参与者2将在第二阶段到来时做出不符合自身利益的反应。
在第一章中我们用标准式表述研究完全信息静态博弈,并作为这种
博弈的解的概念,重点讨论了纳什均衡。不过在本节对动态博弈的讨论
中,我们既不涉及标准式表述,亦不提及纳什均衡;分别代之以(1)
—(3)中对博弈的文字描述和已定义的逆向归纳解。在第2.4.A节中,为了使概念更精确,我们将定义子博弈精炼纳什均衡为:只有不包含不
可置信的威胁的纳什均衡才是子博弈精炼纳什均衡,我们会发现一个属
于(1)—(3)所界定的博弈可能会有多个纳什均衡,但惟一的子博弈
精炼纳什均衡就是与逆向归纳解相对应的均衡。正如我们在第1.1.C节
中所观察到的,有些博弈会有多个纳什均衡,但有一个均衡明显占优,成为博弈的解。
本节的最后,我们探讨逆向归纳法背后的理性假定。考虑下面的三
步博弈,其中参与者1有两次行动:
1.参与者1选择L或R,其中L使博弈结束,参与者1的收益为2,参与
者2的收益为0;
2.参与者2观测参与者1的选择,如果1选择R,则2选择L'或R',其
中L'使博弈结束,两人的收益均为1;
3.参与者1观测2的选择(并且回忆在第一阶段时自己的选择)。如
果前两阶段的选择分别为R和R',则1可选择L或R,每一选择都将结束
博弈,L时参与者1的收益为3,2的收益为0,如选R,两人的收益分别
为0和2。
上面的语言描述可以用如下简明的博弈树表示(这是博弈的扩展式
表述,我们将在第2.4节进行更一般的讨论)。博弈树上每一枝的末端
都有两个收益值,上面代表参与者1的收益,下面代表参与者2的收益。为计算出这一博弈的逆向归纳解,我们从第三阶段(即参与者1的
第二次行动)开始。这里参与者1面临的选择是:L可得收益3,R可得
收益0,于是L是最优的。那么在第二阶段,参与者2预测到一旦博弈进
入到第三阶段,则参与者1会选择,这会使2的收益为0,从而参与者2在
第二阶段的选择为:L'可得收益1,R可得收益0,于是L'是最优的。这
样,在第一阶段,参与者1预测到如果博弈进入到第二阶段,2将选择
L',使参与者1的收益为1,从而参与者1在第一阶段的选择是:L收益为
2,R收益为1,于是L是最优的。
上述过程求出博弈的逆向归纳解为,参与者1在第一阶段选择L,从
而使博弈结束。即使逆向归纳预测博弈将在第一阶段结束,但论证过程
的重要部分却是考虑如果博弈不在第一阶段结束时可能发生的情况。比
如在第二阶段,当参与者2预测如果博弈进入第三阶段,则1会选择L,这时2假定1是理性的。由于只有在1偏离了博弈的逆向归纳解,才能轮
得到2选择行动,而这时2对1的理性假定便看似是矛盾的,即如果1在第
一阶段选择了那么第二阶段2就不能再假定1是理性的了。但这种理解是
不对的:如果1在第一阶段选择了R,则两个参与者都是理性的就不可能
是共同知识,但这时1仍有理由在第一阶段选择R,却不与2对1的理性假
定相矛盾。 [3] 一种可能是“参与者1是理性的”是共同知识,但“参与
者2是理性的”却不是共同知识:如果1认为2可能不是理性的,则1就可
能在第一阶段选择R,希望2在第二阶段选择R',从而给1以机会在第三
阶段选择L。另一种可能是“参与者2是理性的”是共同知识,但“参
与者1是理性的”却不是共同知识:如果1是理性的,但推测2可能认为1
是非理性的,这时1也可能在第一阶段选择R,希望2会认为1是非理性的
而在第二阶段选择R',期望1能在第三阶段选择R。逆向归纳中关于1在
第一阶段选择R的假定可通过上面的情况得到解释。不过在有些博弈
中,对1选择了R的更为合理的假定是1确实是非理性的。在这样的博弈
中,逆向归纳在预测博弈进行方面就会失去其大部分作用,正像在博弈
论不能提供惟一解并不能达成协议的博弈中,纳什均衡也对预测博弈的
结果所助无几。
2.1.B 斯塔克尔贝里双头垄断模型
斯塔克尔贝里(1934)提出一个双头垄断的动态模型,其中一个支
配企业(领导者)首先行动,然后从属企业(追随者)行动。比如在美
国汽车产业发展史中的某些阶段,通用汽车就扮演过这种领导者的角色
(这一例子把模型直接扩展到允许不止一个追随企业,如福特、克莱斯
勒等等)。根据斯塔克尔贝里的假定,模型中的企业选择其产量,这一
点和古诺模型是一致的(只不过古诺模型中企业是同时行动的,不同于
这里的序贯行动)。至于在类似于贝特兰德模型中企业(同时地)选择
价格的假定下,如何构建相似的序贯行动模型,我们留作习题请读者自
己练习。
博弈的时间顺序如下:(1)企业1选择产量q≥0;(2)企业2观测
到q1 ,然后选择产量q2 ≥0;(3)企业i的收益由下面的利润函数给
出这里p(Q)=a-Q,是市场上的总产品Q=q1 +q2 时的市场出清价
格,c是生产的边际成本,为一常数(固定成本为0)。
为解出这一博弈的逆向归纳解,我们首先计算企业2对企业1任意产
量的最优反应,R2 (q1 )应满足
由上式可得
已知q1
出的R2 (q1 )和上式完全一致,两者的不同之处在于这里的R2 (q1)
是企业2对企业1已观测到的产量的真实反应,而在古诺的分析中,R2
(q1 )是企业2对假定的企业1的产量的最优反应,且企业1的产量选择
是和企业2同时作出的。
由于企业1也能够像企业2一样解出企业2的最优反应,企业1就可以
预测到他如选择q1 ,企业2将根据R2 (q1 )选择的产量。那么,在博
弈的第一阶段,企业1的问题就可表示为
由上式可得
及
这就是斯塔克尔贝里双头垄断博弈的逆向归纳解。 [4]
回顾在第1章古诺博弈的纳什均衡中,每一企业的产量为(a-
c)3,也就是说,斯塔克尔贝里博弈中逆向归纳解的总产量3(a-c)4,比古诺博弈中纳什均衡的总产量2(a-c)3要高,从而斯塔克
尔贝里博弈相应的市场出清价格就比较低。不过在斯塔克尔贝里博弈
中,企业1完全可以选择古诺均衡产量(a-c)3,这时企业2的最优反
应同样是古诺均衡的产量,也就是说在斯塔克尔贝里博弈中,企业1完
全可以使利润水平达到古诺均衡的水平,而却选择了其他产量,那么企
业1在斯塔克尔贝里博弈中的利润一定高于其在古诺博弈中的利润。但
斯塔克尔贝里博弈中的市场出清价格降低了,从而总利润水平也会下
降,那么和古诺博弈的结果相比,在斯塔克尔贝里博弈中,企业1利润
的增加必定意味着企业2福利的恶化。
和古诺博弈相比,斯塔克尔贝里博弈中企业2利润水平的降低,揭
示了单人决策问题和多人决策问题的一个重要不同之处。在单人决策理
论中,占有更多的信息决不会对决策制定者带来不利,然而在博弈论
中,了解更多的信息(或更为精确地说,是让其他参加者知道一个人掌
握更多的信息)却可以让一个参与者受损。
在斯塔克尔贝里博弈中,存在问题的信息是企业的产量:企业2知
道q1 ,并且(重要的是)企业1知道企业2知道q1 。为看清楚这一信息
的影响,我们把上面序贯行动的博弈稍作修改,假设企业1先选择q1 ,之后企业2选择q2 、但事前并没有观测到q1 。如果企业2确信企业1选
择了它的斯塔克尔贝里产量 ,则企业2的最优反应仍是。但是,如果企业1预测到企业2将持有这一推断
并选择这一产量,企业1就会倾向于它对(a-c)4的最优反应——即
3(a-c)8——而不愿去选择斯塔克尔贝里产量(a-c)2,那么企业2
就不会相信企业1选择了斯塔克尔贝里产量。从而这一修改过的序贯行
动博弈的惟一纳什均衡,对两个企业都是选择产量(a-c)3——这正
是古诺博弈中的纳什均衡,其中企业是同时行动的。 [5] 亦即,使企业1
知道,企业2知道q1 给企业2带来了损失。
2.1.C 有工会企业的工资和就业
在里昂惕夫(1946)模型中,讨论了一个企业和一个垄断的工会组
织(即作为企业劳动力惟一供给者的工会组织)的相互关系:工会对工
资水平说一不二,但企业却可以自主决定就业人数(在更符合现实情况
的模型中,企业和工会间就工资水平讨价还价,但企业仍自主决定就业,得到的定性结果与本模型相似)。工会的效用函数为U(w,L),其中w为工会向企业开出的工资水平,L为就业人数。假定U(w,L)是w
和L的增函数。企业的利润函数为π(w,L)=R(L)-wL,其中R(L)
为企业雇佣L名工人可以取得的收入(在最优的生产和产品市场决策
下),假定R(L)是增函数,并且为凹函数(concave)。
假定博弈的时序为:(1)工会给出需要的工资水平w;(2)企业
观测到(并接受)w,随后选择雇佣人数L;(3)收益分别为U(w,L)
和π(w,L)。即使没有假定U(w,L)和R(L)的具体的表达式,从
而无法明确解出该博弈的逆向归纳解,但我们仍可以就解的主要特征进
行讨论。
首先,对工会在第一阶段任意一个工资水平w,我们能够分析在第
二阶段企业最优反应L (w)的特征。给定w,企业选择L (w)满足
下式:
一阶条件为
R'(L)-w=0.
为保证一阶条件R'(L)-w=0有解,假定R'(0)=∞,且R'(∞)
=0,如图2.1.1所示。图2.1.1
图2.1.2把L (w)表示为w的函数(但坐标轴经过旋转,以便于和
以后的数据相比较),并表示出它和企业每条等利润线交于其最高点。 [6] 若令L保持不变,w降低时企业的利润就会提高,于是较低的等利润
曲线代表了较高的利润水平。图2.1.3描述了工会的无差异曲线,若令L
不变,当w提高时工会的福利就会增加,于是较高的无差异曲线代表了
工会较高的效用水平。图2.1.2图2.1.3
下面我们分析工会在第一阶段的问题,由于工会和企业同样可以解
出企业在第二阶段的问题,工会就可预测到如果它要求的工资水平为
w1,企业最优反应的就业人数将会是L (w1 )。那么,工会在第一阶
段的问题可以表示为:
表现在图2.1.3的无差异曲线上就是,工会希望选择一个工资水平
w,由此得到的结果(w,L (w))处于可能达到的最高的无差异线
上。这一最优化问题的解为w ,这样一个工资要求将使得工会通过
(w ,L (w ))的无差异曲线与L (w)相切于该点,如图2.1.4
所示。从而,(W ,L (w ))就是这一工资与就业博弈的逆向归纳
解。图2.1.4
更进一步我们还可以看出,(w ,L (w ))是低效率的,在图
2.1.5中,如果w和L处于图中阴影部分以内,企业和工会的效用水平都
会提高。这种低效率对实践中企业对雇佣工人数量保持的绝对控制权提
出了质疑。(允许工人和企业就工资相互讨价还价,但企业仍对雇佣工
人数量绝对控制,也会得到相似的低效率解)。埃斯皮诺萨和里
(EspinosaRhee,1989)基于如下事实为这一质疑提供了一个解释:
企业和工会之间经常会进行定期或不定期的重复谈判(在美国经常是每
三年一次),在这样的重复博弈中,可能会存在一个均衡,使得工会的
选择w和企业的选择L都在图2.1.5所示的阴影部分以内,即使在每一次
性谈判中,这样的w和L都不是逆向归纳解。参见第2.3节中关于重复博
弈的讨论,以及习题2.16对埃斯皮诺萨和里模型的分析。
2.1.D 序贯谈判
我们首先分析一个三阶谈判模型,它属于第2.1.A节分析过的博弈
模型,然后我们讨论鲁宾斯坦(1982)模型,其中博弈的(潜在)阶段数是无限的。在所有两个模型中,都可马上得到谈判结果——不可能发
生持久的谈判(如罢工)。与此相反,在索贝尔和高桥
(SobelTakahashi1983)关于非对称信息下的序贯谈判模型中,罢工
的发生以正概率存在于惟一的(精炼贝叶斯)均衡之中,参见第4.3.B
节。
图2.1.5
参与人1和2就一美元的分配进行谈判。他们轮流提出方案:首先参
与人1提出一个分配建议,参与人2可以接受或拒绝;如果参与人2拒
绝,就由参与人2提出分配建议,参与人1选择接受或拒绝;如此一直进
行下去。一个条件一旦被拒绝,它就不再有任何约束力,并和博弈下面
的进行不再相关。每一个条件都代表一个阶段,参与人都没有足够的耐
心:他们对后面阶段得到的收益进行贴现,每一阶段的贴现因子为δ,这里0<δ<1。 [7]
下面是对三阶段谈判博弈时序的更为详细的描述:
(1a)在第一阶段开始时,参与人1建议他分走1美元的s1 ,留给
参与人2的份额为l-s1 ;
(1b)参与人2或者接受这一条件(这种情况下,博弈结束,参与人1的收益为s1 ,参与人2的收益为1-s1 ,都可立刻拿到),或者拒绝
这一条件(这种情况下,博弈将继续进行,进入第二阶段);
(2a)在第二阶段的开始,参与人2提议参与人1分得1美元的s2 ,留给参与人2的份额为1-s1 (请注意在阶段t,st 总是表示分给参与人
1的,而不论是谁先提出的条件);
(2b)参与人1或者接受条件(这种情况下,博弈结束,参与人1的
收益s2 和参与人2的收益1-s2 都可立即拿到),或者拒绝这一条件
(这种情况下,博弈继续进行,进入第三阶段);
(3)在第三阶段的开始,参与人1得到1美元的s,参与人2得到1-
s,这里0
在这样的三阶段博弈中,第三阶段的解决方案(s,1-s)是外生给
定的。在我们后面将考虑的无限期模型中,第三阶段的收益s将表示如
果博弈进行到第三阶段(即如果前面两个提议都被拒绝)的话,参与人
1在其后进行的博弈中可得到的收益。
为解出此三阶段博弈的逆向归纳解,首先需要计算如果博弈进行到
第二阶段,参与人2可能提出的最优条件。参与人1拒绝参与人2在这一
阶段的条件s2 ,可以在第三阶段得到s,但下一阶段的s在当期的价值
只有δs。那么,当且仅当s2 ≥·s,参与人1才会接受s2 (我们假定
当接受和拒绝并无差异时,参与人总是选择接受条件)。从而参与人2
在第二阶段的决策问题就可归于在本阶段收入1-δ·s(通过向参与人1
提出条件,给他s2 =δ·s)和下阶段收入1-s(通过向参与人1提出条
件,给他任意的s2<δ·s)之间作出选择。后一选择的贴现值为
δ·(1-s),小于前一选择可得的1-δ·s,于是参与人2在第二阶段
可以提出的最优条件是s2 =δ·s。也就是说,如果博弈进行到第二阶
段,参与人2将提出条件 ,参与人1选择接受条件。
由于参与人1可以和参与人2同样地解出参与人2在第二阶段的决策
问题,参与人1也就知道参与人2通过拒绝参与人1的条件,在第二阶段
可以得到 ,但下一阶段得到的 在本阶段的价值只有。那么,当且仅当 或
时,参与人2才会接受1-s1 。从而参与人1在第一阶段的决策问题就可
归于在本阶段收入 (通过向参与人2提出条件 )和下阶段收入 (通过向参与人2提出出任意的)之间作出选择。后一选择的贴现值为
,小于前一选择可得的 ,于是参与
人1在第一阶段提出的最优条件是。这样,在此三阶段博弈的逆
向归纳解中,参与人1向参与人2提出分配方案 ,后者接受
该方案。
现在考虑无限期的情况。博弈时序和前面的描述完全一致,只是第
(3)阶段给出的外生解决方案被其后的无限步讨价还价(3a)、(3b)、(4a)、(4b)等等所代替:奇数步由参与人1出条件,偶数
步由参与人2出条件,直至一方接受条件,讨价还价结束。和前面分析
过的所有应用一样,我们希望能够从后向前推出这一无限步博弈的逆向
归纳解。但是,由于博弈可能会无限地进行下去,因此并不存在我们借
以入手分析的最后一步行动。幸而下面的发现(首先由谢克德和萨顿
(ShakedSutton,1984)所运用),使我们可以把无限博弈截开,并
应用对有限博弈分析的逻辑进行分析:从第三阶段开始的博弈(如果能
进行到这一阶段)与(从第一阶段开始的)整个过程的博弈是相同的
——两种情况下,都是由参与人1首先提出条件,其后两个参与人轮流
出价,直至有一方接受条件谈判结束。
由于尚未正式定义此类无限博弈的逆向归纳解,我们的讨论也将是
非正式的(但也可以进行正式讨论)。假设完整过程的博弈存在逆向归
纳解,此时参与人1和2分别得到s和1-s。我们可以把这个结果用于从第
三阶段开始的博弈,如果博弈进行到第三阶段的话,然后逆向推至第一
阶段(过程与三阶段博弈中相同),可计算出整个博弈的新的逆向归纳
解。在这一新的逆向归纳解中,参与人1将在第一阶段提出解决方案
(f(s),l-f(s)),参与人2会接受这一方案。这里的f(s)=1-
δ(1-δ·s),就是上面讨论过的,在第三阶段解决方案(s,1-s)
外生给定条件下,参与人1第一阶段得到的份额。
令sH 为参与人1在全过程博弈中可能得到的逆向归纳解下的最高收
益。设想sH 为参与人1第三阶段的收益,则如前所述,这将产生一个新
的逆向归纳解,其中参与人1第一阶段的收益为f(sH )。由于f(s)
=l-δ+δ2 s 是s的增函数,sH 是第三阶段可能达到的最高收益,f(sH)也就是第一阶段可能达到的最高收益。但同时sH 又是第一阶段可能达到的最高收益,于是有f(sH )=sH 。相似的论证可证明f(sL )=sL
,这里的sL 为参与人1在全过程博弈中可能得到的逆向归纳解下的最低
收益。满足f(s)=s的惟一的s值为1(1+δ),我们用S 表示。那么
sH =sL =s ,于是整个过程博弈有惟一的逆向归纳解:在第一阶段,参
与人1向参与人2提出分配方案(s =1(1+δ),l-s =δ
(l+δ)),后者接受该方案。2.2 完全非完美信息两阶段博弈
2.2.A 理论:子博弈精炼
现在我们对前一节所讨论的博弈类型加以丰富。和在完全且完美信
息动态博弈中相同,我们继续假定博弈的进行分为一系列的阶段,下一
阶段开始前参与者可观察到前面所有阶段的行动。与上节分析的不同之
处在于,本节我们每一阶段中存在着同时行动。在第2.4节更进一步的
分析中我们将看到,这种阶段内的同时行动意味着本节分析的博弈包含
了不完美信息。然而,此类博弈和前一节所讨论的博弈又有着很多共同
特性。
我们将分析以下类型的简单博弈,并(多么缺乏创意地)称其为完
全非完美信息两阶段博弈:
1.参与者1和2同时从各自的可行集A1 和A2 中选择行动a1 和a2 ,2.参与者3和4观察到第一阶段的结果,(a1 ,a2 ),然后同时从
各自的可行集A3 和A4 中选择行动a3 和a4 ,3.收益为ui (a1 ,a2 ,a3 ,a4 ),i=l,2,3,4。
许多经济学问题都符合以上的特点, [8] 其中三个例子(后面进行
详细讨论)包括对银行的挤提、关税和国际市场的不完全竞争以及工作
竞赛(如一个企业中,几个副总裁为下一任总裁而竞争)。还有很多经
济问题可通过把以上条件稍加改动而建立模型,比如增加参与者人数或
者允许同一参与者(在一个以上的阶段)多次选择行动。也可以允许少
于四个的参与者:在一些应用中,参与者3和4就是参与者1和2;还有的
则不存在参与者2或参与者4。
我们解决此类问题使用的方法,仍沿用了逆向归纳的思路,但这里
从博弈的最后阶段逆向推导的第一步就包含了求解一个真正的博弈(给
定第一阶段结果时,参与者3和4在第二阶段同时行动的博弈),而不再
是前一节求解单人最优化的决策问题。为使问题简化,本节中我们假设
对第一阶段博弈每一个可能结果(a1 ,a2 ),其后(参与者3和4之间
的)第二阶段博弈有惟一的纳什均衡,表示为。在第2.3.A节(关于重复博弈)我们考虑放松这一假定时的应用。
如果参与人1和2预测到参与人3和4在第二阶段的行动将由
给出,则参与人1和2在第一阶段的问题就
可用以下的同时行动博弈表示:
1.参与人1和2同时从各自的可行集A1 和A2 中选择行动a1 和a2 ;
2.收益情况为 ,i=l,2;
假定 为以上同时行动博弈惟一的纳什均衡,我们称
为这一两阶段博弈的子博弈
精炼解。此解与完全且完美博弈中的逆向归纳解在性质上是一致的,并
且与后者有着类似的优点和不足。如果参与者3和4威胁在后面的第二阶
段博弈中,他们将不选择纳什均衡下的行动,参与人1和2是不会相信
的,因为当博弈确实进行到第二阶段时,参与人3和4中至少有一个人不
愿把威胁变为现实(恰好是因为它不是第二阶段博弈的纳什均衡)。另
一方面,假设参与者1就是参与者3,并且参与者1在第一阶段并不选择
a1 ,参与者4就会重新考虑参与者3(即参与者1)在第二阶段将会选
择a3 (a1 ,a2 )的假定。
2.2.B 对银行的挤提
两个投资者每人存入银行一笔存款D,银行已将这些存款投入一个
长期项目。如果在该项目到期前银行被迫对投资者变现,共可收回2r,这里D>r>D2。不过,如果银行允许投资项目到期,则项目共可取得
2R,这里R>D。
有两个日期,投资者可以从银行提款:日期1在银行的投资项目到
期之前,日期2则在到期之后。为使分析简化,假设不存在贴现。如果
两个投资者都在日期1提款,则每人可得到r,博弈结束。如果只有一个
投资者在日期1提款,他可得到D,另一人得到2r-D,博弈结束。如果两
人都不在日期1提款,则项目结束后投资者在日期2进行提款决策。如果
两个投资者都在日期2提款,则每人得到R,博弈结束。如果只有一个投
资者在日期2提款,则他得到2R-D,另一人得到D,博弈结束。最后,如
果在日期2两个投资者都不提款,则银行向每个投资者返还R,博弈结
束。我们将在第2.4节讨论此类博弈的正式表述方法,这里只是一般性
地分析这一问题的解决思路。两个投资者在日期1和日期2的收益情况
(作为他们在那时提款决策的函数),可以用下面的两个标准式博弈表
示。注意这里日期1的标准式博弈是不规范的:如果在日期1两个投资者
都选择不提款,则没有与之对应的收益,这时投资者要继续进行日期2
的博弈。
日期1
日期2
我们从后往前分析此博弈。先考虑日期2的标准式博弈。由于R>
D(并且由此可得2R-D>R),“提款”严格优于“不提款”,那么这一
博弈有惟一的纳什均衡:两个投资者都将提款,最终收益为(R,R)。
由于不存在贴现,我们可以直接用这一收益替入日期1的标准式博弈双
方都不提款时的情况,如图2.2.1所示。由于r
均衡:(1)两个投资者都提款,最终收益情况为(r,r);(2)两个
投资者都不提款,最终收益为(R,R)。从而,最初的两阶段银行挤提博弈就有两个子博弈精炼解(因此也不完全符合第2.2.A节所定义的博
弈类型):(1)两个投资者都在日期1提款,两人的收益分别为(r,r);(2)两个投资者都不在日期1提款,而在日期2提款,两人在日期
2的收益分别为(R,R)。
图2.2.1
前一种结果可以解释为对银行的一次挤提。如果投资者1相信投资
者2将在日期1提款,则投资者1的最优反应也是去提款,即使他们等到
日期2再去提款的话两人的福利都会提高。这里的银行挤提博弈在一个
很重要的方面不同于第1章中讨论的囚徒困境:虽然两个博弈都存在一
个对整个社会是低效率的纳什均衡;但在囚徒困境中这一均衡是惟一的
(并且是参与者的严格占优战略),而在这里还同时存在另一个有效率
的均衡。从而,这一模型并不能预测何时会发生对银行的挤提,但的确
显示出挤提会作为一个均衡结果而出现。参见戴蒙德和迪布维格
(1983)内容更丰富的模型。
2.2.C 关税和国际市场的不完全竞争
下面我们讨论国际经济学中的一个应用。考虑两个完全相同的国
家。分别用i=1,2表示。每个国家有一个政府负责确定关税税率,一个
企业制造产品供给本国的消费者及出口,和一群消费者在国内市场购买
本国企业或外国企业生产的产品。如果(国家i的)市场上总产量为
Qi,则市场出清价格为pi (Qi )=a-Qi ,国家i中的企业(后面称为企
业i)为国内市场生产hi ,并出口ei ,则Q=hi +ej 。企业的边际成本为常数c,并且没有固定成本,从而,企业i生产的总成本为Cj (hj +ej)=c(hi +ej ),另外,产品出口时企业还要承担关税成本(费
用):如果政府j制定的关税税率为tj ,企业i向国家j出口ei 必须支
付关税tj ei 给政府j。
博弈的时间顺序如下:第一,政府同时选择关税税率t1 和t2 ;第
二,企业观察到关税税率,并同时选择其提供国内消费和出口的产量
(h1 ,e1 )和(h2 ,e2 );第三,企业i的收益为其利润额,政府i
的收益则为本国总的福利,其中国家i的总福利是国家i的消费者享受的
消费者剩余、 [9] 企业i赚取的利润以及政府i从企业j收取的关税收入之
和:
假设政府已选定的税率分别为t1 和t2 ,如果 为其
余部分企业1和企业2的(两市场)博弈的纳什均衡,对每一个企业i,必须满足
由于 可以表示为企业i在市场i的利润与在市场
j的利润之和,而企业i在市场i的利润只是hj 和 的函数,在市场j的
利润又只是ei, 和tj 的函数,企业i在两市场的最优化问题就可以
简单地拆分为一对问题,在每个市场分别求解: 必须满足:
且 必须满足
假设 ,可得同时假设 ,可得
(从我们求得的结果来看,和上面两个假设是相符的)对每一个
i=1,2,都必须同时满足(2.2.1)和(2.2.2)两个最优反应函数,从
而我们对四个未知数 就得到了四个方程式。但由于这四
个方程可分为两组,每两个方程包含两个未知数,求解十分容易。其解
为:
比较第1.2.A节的古诺博弈中,两个企业选择的均衡产出都是(a-
c)3,但这一结果是基于对称的边际成本而推出的。而(2.2.3)式的
均衡结果与之不同的是,政府对关税的选择使企业的边际成本不再对称
(正如习题1.6的情况),例如在市场企业i的边际成本是c,但企业j的
边际成本则是c+ti 。由于企业j的成本较高,它意愿的产出也相对较
低。但如果企业j要降低产出,市场出清价格又会相应提高,于是企业i
又倾向于提高产出,这种情况下,企业j的产量就又会降低。结果就是
在均衡条件下, 随ti 的提高而上升, 随ti 的提高而(以更快的
速度)下降。这一点可以从(2.2.3)式的结果中明白看出。
在解出了政府选定关税时,其后第二阶段两企业博弈的结果之后,我们可以把第一阶段政府间的互动决策表示为以下的同时行动博弈:首
先,政府同时选择关税税率t1 和t2 ;第二,政府i的收益为
,这里 和 是(2.2.3)式
所表示的ti 和tj 的函数。现在我们求解这一政府间博弈的纳什均衡。
为简化使用的表示符号,我们把 决定于 决定于tj 隐于式
中:令 表示 ,即当政府i选择关税
ti ,政府j选择关税tj ,企业i和j按(2.2.3)式中的纳什均衡选择行
动时政府i的收益。如果 是这一政府间博弈的纳什均衡,则对
每一个i, 必须满足
但 又等于于是
这一结果对每一个i都成立,并不依赖于 。也就是说,在本模型
中,选择(a-c)3的关税税率对每个政府都是占优战略(在其他模型
中,比如当边际成本递增时,政府的均衡战略就不是占优战略)。把
代入(2.2.3)式可得
这就得到企业第二阶段所选择的产出,至此,我们已求得这一关税
博弈的子博弈精炼解为:
在子博弈精炼解中,每一市场上的总产量为5(a-c)9。进一步分
析我们会发现,如果政府选择的关税税率为0,则每一市场上的总产量
将为2(a-c)3,等于古诺模型的结果。从而,市场i的消费者剩余
(上注中已说明,它简单地等于市场i的总产量平方的一半),在政府
选择其占优战略时,比选择0关税税率时要低,事实上,为0的关税税率
是社会最优选择,因为t1 =t2 =0是下式的解
于是,政府就有动因签订一个相互承诺0关税税率的协定(即自由
贸易)。(如果负关税税率,即补贴,是可行的,社会最优化的条件是
政府选择t1 =t2 =-(a-c),这使得国内企业为本国消费者提供的产出
为0,并向另一国家出口完全竞争条件下的产量)这样,由于企业i和j
在第二阶段将按(2.2.3)给出的纳什均衡结果行动,政府在第一阶段
的互动决策就成为囚徒困境式的问题:惟一的纳什均衡是其占优战略,但对整个社会却是低效率的。
2.2.D 工作竞赛考虑为同一老板工作的两个工人,工人i(其中i等于1或2)生产的
产出yi =ei +εi ,其中ei 是努力程度,εi 是随机扰动项。生产的程
序如下:第一,两个工人同时选择非负的努力水平ei ≥0;第二,随机
扰动项ε1 和ε2 相互独立,并服从期望值为0、密度函数为f(ε)的
概率分布;第三,工人的产出可以观测,但各自选择的努力水平无法观
测,从而工人的工资可以决定于各人的产出,却无法(直接)取决于其
努力水平。
假设老板为激励工人努力工作,而在他们中间开展工作竞赛,参见
拉齐尔和罗森(1981)首先建立的分析模型 [10] 。工作竞赛的优胜者
(即产出水平较高的工人)获得的工资为wH ;失败者的工资为wL 。工
人获得工资水平w并付出努力程度e时的收益为u(w,e)=w-g(e),其
中g(e)表示努力工作带来的负效用,是递增的凸函数(即g'(e)>0
且g(e)>0)。老板的收益为y1 +y2 -wH -wL 。
现在我们套用对第2.2.A节博弈类型的讨论思路来分析这一应用。
老板为参与者1,他的行动a1 是选择工作竞赛中的工资水平wH 和wL ,这里不存在参与者2。两个工人是参与者3和4,他们观测第一阶段选定
的工资水平,然后同时选择行动a3 和a4 ,具体地说就是选定的努力程
度e1 和e2 。(后面我们将考虑另一种可能性,就是对老板选定的工资
水平,工人们不愿意参与工作竞赛,却转而寻找另外的工作机会)最
后,参与者各自的收益如前面所给出。由于产出(并由此而使工资)不
只是参与者行动的函数,而且同时还受随机扰动因素ε1 和ε2 的影
响,我们用参与者的期望收益进行分析。
假定老板已选定了工资水平wH 和wL ,如果一对努力水平
是第二阶段两工人博弈的纳什均衡,则对每个i, 必须使工人的期
望工资减去努力带来的负效用后的净收益最大,亦即 必须满足: [11]
其中yi (ei )=ei +εi 。(2.2.4)的一阶条件为也就是说,工人i选择努力程度ei ,从而使得额外努力的边际负效
用g'(ei ),等于增加努力的边际收益,后者又等于对优胜者的奖励
工资切wH -wL ,乘以因努力程度提高而使获胜概率的增加。
根据贝叶斯法则 [12]
于是,一阶条件(2.2.5)可化为
在对称的纳什均衡(即 ),我们有
由于g(e)是凸函数,优胜获得的奖励越高(即wH -wL 的值越
大),就会激发更大的努力,这和我们的直觉是一致的。另一方面,在
同样的奖励水平下,对产出的随机扰动因素越大,越不值得努力工作,因为这时工作竞赛的最终结果在很大程度上是决定于运气,而非努力程
度。例如,当ε服从方差为σ2 的正态分布时,则有
它随σ的增加而下降,也就是说e 的确随σ的增加而降低。
下面我们从后往前分析博弈的第一阶段。假定工人们同意参加工作
竞赛(而不是去另谋高就),他们对给定的wH 和wL 的反应,将会是
(2.2.6)描述的对称的纳什均衡战略。(从而我们忽略掉存在不对称
均衡的可能性,以及工人的努力程度由角解e1 =e2 =0而不是由一阶条
件(2.2.5)给出的可能性)同时假定工人可寻求其他就业机会,得到
的效用为Ua 。因为在对称的纳什均衡中每个工人在竞赛中获得优胜的
概率为12(即)Prob{yi (e )>yi (e )}=12),如果老板要使工人有动力参加工作竞赛,则他必须选择满足下式的工资水平
假设Ua 足够低,以致于老板愿意激励工人参加竞赛,则他会在
(2.2.7)的约束条件下,选择使自己期望收益2e -wH -wL 最大的工资
水平。由于在最优条件下,(2.2.7)中的等号成立:
wL =2Ua +2g(e )-wH . (2.2.8)
则期望利润就成为2e -2Ua -2g(e ),于是老板要考虑的问题就
是使e -g(e )最大化,这时他选择的工资水平应使得与之相应的e
满足这一条件。从而最优选择下的努力程度满足一阶条件g'(e )
=1,将其代入(2.2.6)则意味着最优激励wH -wL 满足
和(2.2.8)一起,可解得wH 和wL 的值。2.3 重复博弈
本节我们分析在参与者之间长期重复的相互往来中,关于将来行动
的威胁或承诺能否影响到当前的行动。大部分直观的结论是由两阶段的
例子给出的,也有一些观点需要讨论无限次的情况。同时,我们还将定
义重复博弈中子博弈精炼纳什均衡的概念,这一定义在重复博弈的条件
下表述较容易理解,而在第2.4.B节分析一般的完全信息动态博弈中则
要复杂一些。我们在本节先作一简要介绍,以方便后面的展开。
2.3.A 理论:两阶段重复博弈
考虑图2.3.1给出的囚徒困境的标准式,假设两个参与者要把这样
一个同时行动博弈重复进行两次,且在第二次博弈开始之前可观测第一
次进行的结果,并假设整个过程博弈的收益等于两阶段各自收益的简单
相加(即不考虑贴现因素),我们称这一重复进行的博弈为两阶段囚徒
困境。它属于第2.2.A节分析过的博弈类型,这里参与者3、4与参与者
1、2是相同的,行动空间A3 和A4 也与A1 、A2 相同,并且总收益Ui
(a1 ,a2 ,a3 ,a4 )等于第一阶段结果(a1 ,a2 )的收益与第二
阶段结果(a3 ,a4 )的收益简单相加。而且,两阶段囚徒困境满足我
们在第2.2.A节所作的假定:对每一个第一阶段的可行结果(a1 ,a2),其余部分在参与者3和4之间进行的博弈都存在惟一的纳什均衡,表
示为(a3 (a1 ,a2 ),a4 (a1 ,a2 ))。事实上,两阶段囚徒困
境满足比上述假定更为严格的条件:在第2.2.A节中,我们允许其余第
二阶段博弈的纳什均衡依赖于第一阶段的结果——从而我们表示为(a3
(a1 ,a2 ),a4 (a1 ,a2 )),而不是简单的(a3 ,a4 )
(例如在关税博弈中,第二阶段企业选择的均衡产量决定于政府在第一
阶段所选择的关税),但在两阶段囚徒困境中,第二阶段博弈惟一的纳
什均衡就是(L1 ,L2 ),不管第一阶段的结果如何。图2.3.1
图2.3.2
根据在第2.2.A节讲过的求解此类博弈子博弈精炼解的程序,第二
阶段博弈的结果为该阶段所余部分博弈的纳什均衡,在本例中,即为
(L1 ,L2 ),两人收益为(1,1),我们在此前提下分析两阶段囚徒
困境第一阶段的情况。由此,两阶段囚徒困境中,参与者在第一阶段的
局势就可归纳为图2.3.2所示的一次性博弈,其中,第二阶段的均衡收
益(1,1)分别被加到两人第一阶段每一收益组合之上。图2.3.2所示
的博弈同样有惟一的纳什均衡:(L1 ,L2 )。从而,两阶段囚徒困境
惟一的子博弈精炼解就是第一阶段的(L1 ,L2 )和随后第二阶段的
(L1 ,L2 )。在子博弈精炼解中,任一阶段都不能达成相互合作——
(R1 ,R2 )的结果。这一结论在更为一般的条件下同样成立(这里我们暂时离开两阶段
的例子,允许任何有限的T次重复)。令G={A1 ,…,An ;u1 ,…,un
}表示一个完全信息博弈,其中参与者1到n同时从各自的行动空间A1 到
A4 中分别选择行动a1 到an ,得到的收益分别为u1 (a1 ,…,an),…un (a1 ,…,an ),此后我们称博弈G为重复博弈中的阶段博
弈。
定义 对给定的阶段博弈G,令G(T)表示G重复进行T次的有限重复
博弈,并且在下一次博弈开始前,所有以前博弈的进行都可被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
定理 如果阶段博弈G有惟一的纳什均衡,则对任意有限的T,重复
博弈G(T)有惟一的子博弈精炼解:即G的纳什均衡结果在每一阶段重
复进行。 [13]
图2.3.3
现在,我们回到两阶段博弈,进一步考虑阶段博弈G有多个纳什均
衡的情况,如图2.3.3所示。战略Li 和Mi 与图2.3.1所示的囚徒困境完
全相同,只不过增加了战略Ri 使博弈有了两个纯战略纳什均衡:其一
是囚徒困境中的(L1 ,L2 ),另外还有(R1 ,R2 )这个例子中凭空
给囚徒的困境增加了一个均衡解当然是很主观的,但在此博弈中我们的兴趣主要在理论上,而非其经济学意义。在下一节我们将看到,即使重
复进行的阶段博弈像囚徒的困境一样有惟一的纳什均衡,但当重复博弈
无限次进行下去时,仍表现出这里所分析的多均衡特征。从而,本节我
们在最简单的两阶段情况下分析一个抽象的阶段博弈,以后再分析由有
经济学意义的阶段博弈构成的无限重复博弈也就十分容易了。
设图2.3.3表示的阶段博弈重复进行两次,并在第二阶段开始前可
以观测到第一阶段的结果,我们可以证明在这一重复博弈中存在一个子
博弈精炼解,其中第一阶段的战略组合为(M1 ,M2 ) [14] 。和第
2.2.A节相同,假定在第一阶段参与者预测第二阶段的结果将会是下一
阶段博弈的一个纳什均衡,由于这里阶段博弈有不止一个纳什均衡,因
而参与者可能会预测根据第一阶段的不同结果,在第二阶段的博弈中将
会出现不同的纳什均衡。例如,设参与者预测如果第一阶段的结果是
(M1 ,M2 ),第二阶段的结果将会是(R1 ,R2 ),而如果第一阶段
中其他8个结果的任何一个出现,第二阶段的结果就将会是(L1 ,L2),那么参与者在第一阶段所面临的局势就可归为图2.3.4所示的一次
性博弈,其中在(M1 ,M2 )单元加上了(3,3),在其余8个单元各
加上(1,1)。
图2.3.4
在图2.3.4的博弈中有3个纯战略纳什均衡:(L1 ,L2 ),(M1 ,M2 )和(R1 ,R2 )。和在图2.3.2中一样,这个一次性博弈中的纳什
均衡对应着重复博弈的子博弈精炼解。令(w,x),(y,z)表示重复
博弈的一个结果——第一阶段和第二阶段的行动分别为(w,x)和
(y,z)。图2.3.4中的纳什均衡(L1 ,L2 )对应着重复博弈的子博弈精炼解((L1 ,L2 ),(L1 ,L2 )),因为除第一阶段的结果是
(M1 ,M2 )外,其他任何情况发生时,第二阶段的结果都将是(L1 ,L2 )。类似地,图2.3.4中的纳什均衡(R1 ,R2 )对应了重复博弈的
子博弈精炼解((R1 ,R2 ),(L1 ,L2 ))。重复博弈的这两个子
博弈精炼解都简单地由两个阶段博弈的纳什均衡解相串而成,但图
2.3.4里的第三个纳什均衡结果却与前两者存在质的差别:图2.3.4中的
(M1 ,M2 )对应的重复博弈子博弈精炼解为((M1 ,M2 ),(R1 ,R2 )),因为对(M1 ,M2 )之后的第二阶段结果预期是(R1 ,R2),亦即正如我们前面讲过的,在重复博弈的子博弈精炼解中,合作可
以在第一阶段达成。下面是更为一般的情况:如果G={A1 ,…,An ;u1
,…,un }是一个有多个纳什均衡的完全信息静态博弈,则重复博弈
G(T)可以存在子博弈精炼解,其中对每一t
的纳什均衡,下一节我们在讨论无限重复博弈时还将涉及这一理念。
这个例子要说明的主要观点是,对将来行动所作的可信的威胁或承
诺可以影响到当前的行动。不过另外一点,也说明了子博弈精炼的概念
对可信性的要求并不严格。例如,在推导子博弈精炼解((M1 ,M2),(R1 ,R2 ))时,我们假定如果第一阶段的结果是(M1 ,M2),则参与双方都预期(R1 ,R2 )将是第二阶段的解,如果第一阶段
出现了任何其他8种结果之一,第二阶段的结果就会是(L1 ,L2 )。 ......
图字:01-1999-0959号
图书在版编目(CIP)数据
博弈论基础(美)吉本斯(Gibbons,R.)著;高峰译.—北京:
中国社会科学出版社,1999.3
(当代经济学教科书译丛)
ISBN 7-5004-2454-X
Ⅰ.博… Ⅱ.①吉…②高… Ⅲ.对策论 Ⅳ.0225
中国版本图书馆CIP数据核字(1999)第13099号
“Translation Copyright?1998by China Social Sciences
Publishing House”Copyright?1992 All Rights Reserved.
Published by arrangement with the original publisher,Prentice Hall Europe,a SimonSchuster company.
责任编辑 张红
责任校对 李明
封面设计 毛国宣
版式设计 吴明
数字编辑 于晓伦
出版发行
(北京鼓楼西大街甲158号)
邮编 100720
经销 新华书店
印刷 北京大兴新魏印刷厂
版次 1999年3月第1版、第1次印刷
开本 787×1092毫米 116
印张 13.25插页 2
字数 228千字
印数 4000册
纸书定价 25.00元
ISBN 7-5004-2454-XF·446内容简介
介绍博弈论的杰出之作:清晰、精确,并间以丰富的例证,此书将
是尚未涉足博弈论的应用经济学者入门必读,亦为博弈论大师们讲授这
门课的最好教材。
戴维·克雷普斯,期坦福大学
此书的力量在于从博弈论的最新发展中撷取了大量例证,吉本斯善
于把抽象的问题讲得简单易懂。这方面他真是个天才,使人对这一理论
兴味大增。绝大多数例子本身就妙趣横生——简直令人不忍释卷,这种
理论和应用的完美结合正是读者希望此类书籍能够达到的。
舍文·罗森,芝加哥大学
这本书在理论和应用的结合方面是非常杰出的,例子已成为每章不
可分割的组成部分,不仅为学习技术方法提供了可信的例证,同时还介
绍了经济学应用领域的最新进展。此书对希望掌握博弈论应用的学生和
研究人员都是必读乏物。
詹姆斯·波特巴,MIT
此书为各类读者介绍现代经济学最为常用的分析工具之一,不仅针
对那些将要学习博弈论专业的,还面向那些计划在应用经济领域建立
(甚至只是使用)博弈论模型的读者。吉本斯在强调纯理论的同时,还
同样强调这一理论在经济学中的应用;对抽象博弈理论的正式讨论不是
本书重点,广泛的应用显示出在经济学的不同领域都提出了相似问题,并都可使用相同的博弈论工具进行分析。为强调该理论广阔的发展前
景,本书从经济学的多种分支——产业组织、劳动力经济学、宏观经济
学、金融理论和国际经济学中广泛取例。
作者系约翰逊管理学院的助理教授当代经济学教科书译丛编委会
顾问
陈岱孙(北京大学教授,1926年获哈佛大学哲学博士)
肯尼斯·阿罗(美国斯坦福大学教授,1972年诺贝尔经济学奖获得
者)
主编
晏智杰(北京大学经济学院院长、教授,博士生导师)
钱颖一(美国斯坦福大学教授,1990年获哈佛大学经济学博士)
执行编委
罗涛 苏剑 叶南奇 张红序言
最近20年来,中国经历了剧烈的社会和经济变迁,而且可以预期,还会沿着邓小平理论指引的方向继续前进。这种变迁呼唤着适当的经济
理论来提供某种指导——中国的发展和改革需要经济学理论的创新。在
创新过程中,无疑需要借鉴西方经济学。同样,西方经济学的发展也越
来越需要更为广阔的经济视野,需要从更为多样化的经济实践中吸取营
养。于是,西方经济学界越来越多的有识之士把目光转向了原来实行计
划经济的国家,这些国家的苦恼、阵痛、期望和奋斗历程都可能成为经
济学进一步发展的契机,都可能为经济学的发展提供新的素材、新的视
角、新的思路、新的方法。而在原计划经济国家中,中国是惟一保持转
轨与发展并行不悖的国家。这使东西方的许多经济学家感到振奋。
为了深化我们对中国经济及其改革过程的理解,从而为我国的经济
建设提供切实可行的指导,为经济学的发展提供新的素材和新的视角,加强中国与西方经济学的交流和沟通就成为必不可少的了。为此,北京
大学和斯坦福大学两个经济学院系的有关教学和研究人员准备全面系统
地向中国介绍西方经济学的最新研究成果和研究方法,主要是把西方一
流经济学院系正在使用的最新、最好的经济学教材译介到中国来。
这套丛书有如下特点。第一,层次高。本丛书所选书目均为中高级
教材。第二,内容新。所选书目均为美国最近几年出版的教材,体现了
西方经济学的最新研究成果与水准。第三,题材广泛且具有系统性。大
凡当代经济学的各个领域,从基础理论到各专门学科,从理论、历史到
方法,本译丛均有涉及。第四,选材权威。本译丛所选书目均经北京大
学和斯坦福大学有关经济学家严格挑选,都是美国经济学教材中的优秀
之作,均出自美国著名经济学家之手,并在美国名牌大学经济学系广为
使用。
这套《当代经济学教科书译丛》包括高级和中级两个系列。高级系
列覆盖了西方经济学的各个基础领域,包括宏观经济学、微观经济学、经济计量学、对策论、经济史和经济思想史等,入选各书均为目前西方
一流经济学院系所用的最新最好的研究生教材。我们希望这套书能对读
者了解当代西方经济学的现状和未来发展方向有所帮助,也希望对理解
中国经济、从而为中国的经济改革有所裨益。前言
博弈论是研究多人决策问题的理论,这类问题在经济学研究中又经
常会遇到。例如,大家都已十分熟悉的寡头垄断市场就是典型的多人决
策——其中的每一厂商必须考虑其他厂商的行为。但博弈论在经济学领
域的应用远不限于产业组织理论。在微观研究领域,交易机制的模型
(诸如讨价还价模型和拍卖模型)就涉及博弈论;在中观经济研究中,劳动力经济学和金融理论都有关于企业要素投入品市场(而非寡头垄断
模型中的产出品市场)的博弈论模型,即使在一个企业内部也存在博弈
论问题:如许多工人可能会为同一升迁机会勾心斗角,不同部门间也会
为争取公司的资本金投入相互竞争。最后,从宏观的角度看,国际经济
学中有关于国家间的相互竞争(或互相串谋),选择关税或其他贸易政
策的模型;宏观经济学中也有货币当局和工资、价格制定者(厂商等微
观单位)间的战略相互影响,最终决定了货币政策效果的模型。
这本书是为那些以后将在经济学应用领域建立(至少是使用)博弈
论模型的人设计的,介绍理论应用的篇幅至少和纯理论一样多,原因有
三:第一,具体应用的例子有助于对纯理论的学习和理解,本书也有关
于抽象博弈论模型的正式讨论,但相比之下较为次要;第二,在介绍应
用的同时也说明了构建模型的程序——即把非正式的对多人决策问题的
描述转化为可分析的正式博弈论问题的程序;第三,不同的例子也显示
出在经济学的不同领域中遇到的问题有很多在本质上是相似的,并可使
用相同的博弈论分析工具去分析不同类型的问题。为强调博弈论广泛的
潜在运用领域,本书尽量减少使用大家已广为熟悉的其在产业组织理论
中的应用例子,而更多地介绍其在经济学其他领域的应用,如劳动力经
济学、宏观经济学等。
在本书中,我们将讨论四种类型的博弈:完全信息静态博弈、完全
信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。(如果其
中一个参与人不知道另外参与人的收益函数,该博弈就是不完全信息
的,如在拍卖中,每一个竞买者都不知道另外竞买者愿为拍卖品出多高
的价格)与上述四种类型博弈相对应的是博弈论的四个均衡概念:纳什
均衡(Nash equilibrium)、子博弈精炼纳什均衡(subgame-perfect
Nash equilibrium)、贝叶斯纳什均衡(Bayesian Nash
equilibrium)和精炼贝叶斯均衡(perfect Bayesianequilibrium)。
为更好地在整体上理解这四个均衡概念,应注意以下两点:第一,这四个均衡概念的条件是逐渐强化的,更为严格的概念的提出是为了弥
补条件较弱的均衡概念的不足和漏洞。例如,我们会看到,子博弈精炼
纳什均衡的条件比纳什均衡的条件更为严格,而精炼贝叶斯均衡的条件
又较子博弈精炼均衡为强。第二,如果我们愿意,可以把所有的均衡概
念都归为某种条件下的精炼贝叶斯均衡(甚至是条件更强的均衡概
念),它在完全信息静态博弈的条件下与纳什均衡是等价的,在完全
(且完美)信息动态博弈中等价于子博弈精炼均衡,在不完全信息静态
博弈下等价于贝叶斯纳什均衡。
本书可提供两种用途。经济学系一年级的研究生,由于对书中的许
多应用已十分熟悉,可用半学期的课程讲完博弈论的主要内容,余下的
应用部分可安排课下自学。对本科大学生,一整个学期的课程安排更为
妥当,从而有时间较从容地学习理论,并在课堂上讲授书中的应用。所
需的主要数学基础为一元微积分;概率论的基本概念和分析工具,本书
在用到时将加以介绍。
我的博弈论知识主要得自我在研究生期间的戴维·克雷普斯
(David Kreps)、约翰·罗伯茨(John Roberts)、鲍勃·威尔逊
(Bob Wilson)以及其后的亚当·布兰登贝格尔(Adam
Brandenburger)、德鲁·富登伯格(Drew Fudenberg)和琼·泰勒尔
(Jean Tirole),书中的理论主要得自他们所传;本书偏重于应用的
特点及通俗易学的风格,则主要得益于MIT经济学系聪敏好学的学生,我于1985—1990年间为他们开设这门课程。我对以上师友们的指导和鼓
励致以万分的谢意,并衷心感谢对本书草稿提供宝贵意见的乔·法雷尔
(Joe Farrell)、米尔特·哈里斯(Milt Harris)、乔治·马拉斯
(George Mailath)、马修·雷宾(Matthew Rabin)、安迪·韦斯
(Andy Weiss)及其他无法提及姓名的读者。最后,我还非常荣幸地得
到普林斯顿大学出版社杰克·莱普彻克(Jack Repcheck)的指导和鼓
励,以及国家经济研究局奥林经济学奖金(Olin Fellowship in
Economics)的资助,在此一并致谢。目录
序言
前言
第1章 完全信息静态博弈
1.1 基础理论:博弈的标准式和纳什均衡
1.1.A 博弈的标准式表述
1.1.B 重复剔除严格劣战略
1.1.C 纳什均衡的导出和定义
1.2 应用举例
1.2.A 古诺的双头垄断模型
1.2.B 贝特兰德的双头垄断模型
1.2.C 最后要价仲裁
1.2.D 公共财问题
1.3 理论发展:混合战略和均衡的存在性
1.3.A 混合战略
1.3.B 纳什均衡的存在性
1.4 进一步阅读
1.5 习题与练习
第1.1节
第1.2节
第1.3节
1.6 参考文献
第2章 完全信息动态博弈
2.1 完全且完美信息动态博弈
2.1.A 理论:逆向归纳法
2.1.B 斯塔克尔贝里双头垄断模型
2.1.C 有工会企业的工资和就业
2.1.D 序贯谈判
2.2 完全非完美信息两阶段博弈
2.2.A 理论:子博弈精炼
2.2.B 对银行的挤提
2.2.C 关税和国际市场的不完全竞争
2.2.D 工作竞赛2.3 重复博弈
2.3.A 理论:两阶段重复博弈
2.3.B 理论:无限重复博弈
2.3.C 古诺双头垄断下的共谋
2.3.D 效率工资
2.3.E 时间一致性的(Time-Consistent)货币政策
2.4 完全非完美信息动态博弈
2.4.A 博弈的扩展式表述
2.4.B 子博弈精炼纳什均衡
2.5 进一步阅读
2.6 习题
第2.1节
第2.2节
第2.3节
第2.4节
2.7 参考文献
第3章 非完全信息静态博弈
3.1 理论:静态贝叶斯博弈和贝叶斯纳什均衡
3.1.A 一个例子:非对称信息下的古诺竞争
3.1.B 静态贝叶斯博弈的标准式表述
3.1.C 贝叶斯纳什均衡的定义
3.2 应用举例
3.2.A 再谈混合战略
3.2.B 拍卖一种
3.2.C 双向拍卖
3.3 显示原理(The Revelation Principle)
3.4 进一步阅读
3.5 习题与练习
第3.1节
第3.2节
3.6 参考文献
第4章 非完全信息动态博弈
4.1 精炼贝叶斯均衡概述
4.2 信号博弈
4.2.A 信号博弈的精炼贝叶斯均衡
4.2.B 就业市场信号4.2.C 公司投资和资本结构
4.2.D 货币政策
4.3 精炼贝叶斯均衡的其他应用
4.3.A 空谈博弈
4.3.B 非对称信息下的序贯谈判
4.3.C 有限重复囚徒困境中的声誉
4.4 精炼贝叶斯均衡的再精炼
4.5 进一步阅读
4.6 习题
第4.1节
第4.2节
第4.3节
第4.4节
4.7 参考文献第1章 完全信息静态博弈
在本章中,我们讨论如下简单形式的博弈:开始时由参与者同时选
择行动,然后根据所有参与者的选择,每个参与者得到各自的结果(一
定的收益或支出)。在此类静态(即各方同时行动)的博弈中,我们的
分析又仅限于完全信息博弈的情况,即每一参与者的收益函数(根据所
有参与者选择行动的不同组合决定某一参与者收益的函数)在所有参与
者之间是共同知识(common knowledge)。我们在本书的第2章和第4章
讨论动态(即序贯行动)博弈,在本书的第3章和第4章分析不完全信息
博弈(博弈中的一些参与者不知道其他参与者的收益函数,如拍卖中每
一人都不清楚其他人到底愿意为拍卖品出多高的价格)。
在第1.1节首先介绍博弈论入门的两个最基本问题:如何描述一个
博弈问题以及如何求得博弈问题的解。我们定义博弈的标准式表述和严
格劣战略的概念,并说明有些博弈问题只要运用理性参与者绝不会使用
严格劣战略这一原则,就可得到解决,但此原则在其他博弈问题中也可
能出现非常不精确的预测(像任何结果都有可能发生之类)。接着,我
们引出纳什均衡的概念并给出定义——这一概念的用途很广,对很多类
型的博弈都能作出较为严格的预测。
在第1.2节我们运用前面介绍的工具,分析其四个应用模型:古诺
(Cournot,1838)的不完全竞争模型,贝特兰德(Bertrand,1883)
的不完全竞争模型,法伯(Farber,1980)的最后要价仲裁和公共财产
问题(休谟(Hume),1739年提出了此类问题,以后又不断被经济学家
提出讨论)。在每一应用例子中,我们先把问题的非标准描述转化为博
弈的标准式,其后再解出该博弈的纳什均衡。(上面每一例子都存在惟
一的纳什均衡,但我们讨论的范围却不限于此。)
在第1.3节重回理论分析。首先我们定义混合战略(Mixed
strategy),它可理解为一个参与者并不能确定其他参与者将会如何行
动,然后引出并讨论纳什定理,该定理保证了在非常广泛的博弈类型中
都存在着纳什均衡(也许会是混合战略均衡)。由于我们在第1.1节介
绍了最基本的理论,在第1.2节安排了应用举例,最后在第1.3节又给出
了更进一步的理论内容,显然,在第1.3节中更深入的理论探讨,对第
1.2节例子的理解并不是必须的前提,混合战略的概念和均衡的存在性
在以后各章中都时有提及。本章及其后各章后面均附有习题、建议以及进一步的阅读资料及参
考文献目录。1.1 基础理论:博弈的标准式和纳什均衡
1.1.A 博弈的标准式表述
在博弈的标准式表述中,每一参与者同时选择一个战略,所有参与
者选择战略的组合决定了每个参与者的收益。我们借一个经典的例子说
明博弈的标准式——囚徒困境。两个犯罪嫌疑人被捕并受到指控,但除
非至少一个人招认犯罪,警方并无充足证据将其按罪判刑。警方把他们
关入不同牢室,并对他们说明不同行动带来的后果。如果两人都不坦
白,将均被判为轻度犯罪,入狱一个月;如果双方都坦白招认,都将被
判入狱6个月;最后,如果一人招认而另一人拒不坦白,招认的一方将
马上获释,而另一人将判入狱9个月——所犯罪行6个月,干扰司法加判
3个月。
囚徒面临的问题可用下图所示的双变量矩阵表来描述。(正如同一
个矩阵一样,双变量矩阵可由任意多的行和列组成,“双变量”指的是
在两个参与者的博弈中,每一单元格有两个数字——分别表示两个参与
者的收益)
囚徒的困境
在此博弈中,每一囚徒有两种战略可供选择:坦白(或招认)、不
坦白(或沉默),在一组特定的战略组合被选定后,两人的收益由上图
双变量矩阵中相应单元的数据所表示。习惯上,横行代表的参与者(此例中为囚徒1)的收益在两个数字中放前面,列代表的参与者(此例为
囚徒2)的收益置于其后。这样,如果囚徒1选择沉默,囚徒2选择招
认,囚徒1的收益就是-9(代表服刑9个月),囚徒2的收益为0(代表马
上开释)。
现在我们回到一般情况。博弈的标准式表述包括:(1)博弈的参
与者,(2)每一参与者可供选择的战略集,(3)针对所有参与者可能
选择的战略组合,每一个参与者获得的收益。我们后面将经常讨论到n
个参与者的博弈,其中参与者从1到n排序,设其中任一参与者的序号为
i,令Si 代表参与者i可以选择的战略集合(称为i的战略空间),其中
任意一个特定的战略用si 表示(有时我们写成si ∈Si 表示战略si 是
战略集Si 中的要素)。令(s1 ,…,sn )表示每个参与者选定一个战
略形成的战略组合,ui 表示第i个参与者的收益函数,ui (s1 ,…,sn )即为参与者选择战略(s1 ,…,sn )时第i个参与者的收益。将
上述内容综合起来,我们得到:
定义 在一个n人博弈的标准式表述中,参与者的战略空间为S1 ,…,Sn ,收益函数为u1 ,…,un ,我们用G={S1 ,…,Sn ;u1 ,…,un }表示此博弈。
尽管我们曾提到在博弈的标准式中,参与者是同时选择战略的,但
这并不意味着各方的行动也必须是同时的:只要是每一参与者在选择行
动时不知道其他参与者的选择就足够了,像上例中牢里分开关押的囚徒
可以在任何时间作出他们的选择。更进一步,尽管在本章中博弈的标准
式只用来表示参与者行动时不清楚他人选择的静态博弈,但在第2章中
我们就会看到标准式也可用来表示序贯行动的博弈,只不过另一种变通
的方式——博弈的扩展式表述更为常用,它在分析动态问题时也更为方
便。
1.1.B 重复剔除严格劣战略
上节已讲过一个博弈的表述方法,下面开始介绍如何着手分析一个
博弈论问题。我们从囚徒的困境这个例子开始,因为它较为简单,只需
用到理性的参与者不会选择严格劣战略这一原则。
在囚徒的困境中,如果一个嫌疑犯选择了招认,那么另一人也会选择招认,被判刑6个月,而不会选择沉默从而坐9个月的牢;相似地,如
果一个嫌疑犯选择沉默,另一人还是会选择招认,这样会马上获释,而
不会选择沉默在牢里渡过一个月。这样,对第i个囚徒讲,沉默相比招
认来说是劣战略——对囚徒j可以选择的每一战略,囚徒i选择沉默的收
益都低于选择招认的收益。(对任何双变量矩阵,上例中的收益的具体
数字0,-1,-6,-9换成任意的T、R、P、S,只要满足T>R>P>S,上
述结论依然成立。)更为一般地:
定义 在标准式的博弈G={S1 ,…,Sn ;u1 ,…,un }中,令s'i
和si 代表参与者i的两个可行战略(即s'i 和si ;是Si 中的元
素)。如果对其他参与者每一个可能的战略组合,i选择s'i 的收益都
小于其选择si 的收益,则称战略s'i 相对于战略si 是严格劣战略:
ui (s1 ,…,Si-1 ,s'i ,si+l ,…,Sn )
对其他参与者在其战略空间S1 ,…,Si-1 ,Si+1 ,…,Sn 中每一
组可能的战略(s1 ,…,Si-1 ,si+1 ,…,sn )都成立。
理性的参与者不会选择严格劣战略,因为他(对其他人选择的战
略)无法作出这样的推断,使这一战略成为他的最优反应。 [1] 这样,在囚徒的困境中,一个理性的参与人会选择招认,于是(招认,招认)
就成为两个理性参与者的结果,尽管(招认,招认)带给双方的福利都
比(沉默,沉默)要低。囚徒的困境的例子还有很多应用,我们将在第
2章和第4章讨论它的变型。现在,我们来看理性参与者不选择严格劣战
略这一原则是否能解决其他博弈问题。图1.1.1
考虑图1.1.1所示抽象博弈的例子, [2] 参与人1有两个可选战略,参与人2有3个可选战略:S1 ={上,下},S2 ={左,中,右}。对参与人
1来讲,上和下都不是严格占优的:如果2选择左,上优于下(因为1>
0),但如2选择右,下就会优于上(因为2>0)。但对参与人2来讲,右严格劣于中(因为2>1且1>0),因此理性的参与人2是不会选择右
的。那么,如果参与人1知道参与人2是理性的,他就可以把右从参与人
2的战略空间中剔除,即如果参与人1知道参与人2是理性的,他就可以
把图1.1.1所示博弈视同为图1.1.2所示博弈:
图1.1.2
在图1.1.2中,对参与人1来讲,下就成了上的严格劣战略,于是如
果参与人1是理性的(并且参与人1知道参与人2是理性的,这样才能把
原博弈简化为图1.1.2),参与人1就不会选择下。那么,如果参与人2知道参与人1是理性的,并且参与人2知道参与人1知道参与人2是理性的
(从而参与人2知道原博弈将会简化为图1.1.2所示博弈),参与人2就
可以把下从参与人1的战略空间中剔除,余下图1.1.3所示博弈。但这时
对参与人2,左又成为中的严格劣战略,仅剩的(上,中)就是此博弈
的结果。
图1.1.3
上面的过程可称为“重复剔除严格劣战略”。尽管此过程建立在理
性参与人不会选择严格劣战略这一合情近理的原则之上,它仍有两个缺
陷:第一,每一步剔除都需要参与者间相互了解的更进一步假定,如果
我们要把这一过程应用到任意多步,就需要假定“参与者是理性的”是
共同知识。这意味着,我们不仅需要假定所有参与人是理性的,还要假
定所有参与人都知道所有参与人是理性的,还需要假定所有参与人都知
道所有参与人都知道所有参与人是理性的,如此等等,以至无穷(关于
共同知识的正式定义参见奥曼(Aumann,1976))。
重复剔除严格劣战略的第二个缺陷在于这一方法对博弈结果的预测
经常是不精确的。例如,在1.1.4中的博弈中,就没有可以剔除的严格
劣战略。(由于没有现实事件作为基础,这一博弈可能会被认为是随意
编制或不合逻辑的,为此我们还可以参考1.2.A中经济学应用部分反映
同一实质的3个及更多企业的古诺模型)既然所有战略都经得住对严格
劣战略的重复剔除,该方法对分析博弈将出现什么结果毫无帮助。图1.1.4
下面我们介绍纳什均衡,它是一种博弈的解的概念,可以对非常广
泛类型的博弈作出严格得多的预测。我们通过参与者的纳什均衡战略绝
不会在重复剔除严格劣战略的过程中被剔除掉,而重复剔除劣战略后所
留战略却不一定满足纳什均衡战略的条件,来证明纳什均衡是一个比重
复剔除严格劣战略要强的解的概念。以后各章我们还将证明在扩展式的
博弈中,甚至纳什均衡对博弈结果的预测也可能是不精确的,从而还需
要定义条件更为严格的均衡概念。
1.1.C 纳什均衡的导出和定义
导出纳什均衡的途径之一,是证明如果博弈论还可以为博弈问题提
供一个惟一解,此解一定是纳什均衡,原因如下。设想在博弈论预测的
博弈结果中,给每个参与者选定各自的战略,为使该预测是正确的,必
须使参与者自愿选择理论给他推导出的战略。这样,每一参与者要选择
的战略必须是针对其他参与者选择战略的最优反应,这种理论推测结果
可以叫做“战略稳定”或“自动实施”的,因为没有参与人愿意独自离
弃他所选定的战略,我们把这一状态称为纳什均衡。
定义 在n个参与者标准式博弈G={S1 ,…,Sn ;u1 ,…,un }
中,如果战略组合 满足对每一参与者i, 是(至少不劣于)他针对其他n-1个参与者所选战略 的最优反
应战略,则称战略组合 是该博弈的一个纳什均衡。即:
对所有Si 中的si 都成立,亦即 是以下最优化问题的解:
为把该定义和开始提到的推导思路联系起来,设想有一标准式博弈
G={Si ,…,Sn ;ul ,…,un },博弈论为它提供的解为战略组合
{s'1 ,…,s'n },如果{s'1 ,…,s'n }不是G的纳什均衡,就意味着
存在一些参与人i,s'i 不是针对{s'1 ,…,s'i-1 ,s'i+1 ,…,s'n
}的最优反应战略,即在Si 中存在si ,使得:
ui (s'1 ,…,s'i-1 ,s'i ,s'i+1 ,…,s'n )
那么,如果博弈论提供的战略组合解{S'1 ,…,s'n }不是纳什均
衡,则至少有一个参与者有动因偏离理论的预测,使得博弈真实进行和
理论预测不一致。和纳什均衡推导密切相关的是协议的理念:对给定的
博弈,如果参与者之间要商定一个协议决定博弈如何进行,那么一个有
效的协议中的战略组合必须是纳什均衡的战略组合,否则,至少有一个
参与人会不遵守该协议。
为更准确地理解这一概念,下面求解几个例题。考虑前面已描述过
的三个标准式博弈——囚徒的困境、图1.1.1和图1.1.4。寻找博弈纳什
均衡的一个最直接办法就是简单查看每一个可能的战略组合是否符合定
义中不等式(NE)的条件。 [3] 在两人博弈中,这一方法开始的程序如
下:对每一个参与者,并且对该参与者每一个可选战略,确定另一参与
者相应的最优战略。图1.1.5中,就把图1.1.4所示博弈作了上述处理,对参与者i的每一个可选战略,在参与者j使用最优反应战略时的收益下
面划了横线。例如,如果列参与人选择左,行参与人的最优战略将会是
中(因为4比3和0都要大),于是我们在双变量矩阵(中,左)单元内
行参与人的收益“4”下划一条横线。图1.1.5
如果在一对战略中,每一参与人的战略都是对方战略的最优反应战
略,则这对战略满足不等式(NE)的条件(亦即双变量矩阵相应单元的
两个收益值下面都被划了横线)。这样,(下,右)是惟一一对满足
(NE)的战略组合。同样的过程可得到囚徒困境中的战略组合(招认,招认)、图1.1.1中的战略组合(上,中)。这些战略组合就是各自博
弈中惟一的纳什均衡。 [4]
下面我们重点分析纳什均衡和重复剔除严格劣战略均衡的关系。我
们已经看到,囚徒困境和图1.1.1中的纳什均衡——分别为(招认,招
认)和(上,中)——正是经过重复剔除严格劣战略后仅剩的战略组
合。这一结果可总结为:如果用重复剔除严格劣战略把除战略组合
外所有的战略组合都剔除掉,则该所存战略组合就是此博
弈惟一的纳什均衡(参见在附录1.1.C中这一结论的证明)。不过,由
于重复剔除严格劣战略并不经常会只剩下惟一的战略组合,纳什均衡作
为比重复剔除严格劣战略更强的解的概念,自然受到更多关注,理由如
下。如果战略组合 是一个纳什均衡,它一定不会被重复剔
除严格劣战略所剔除(同样参见附录中的证明),但也可能有重复剔除
严格劣战略无法剔除的战略组合,其本身却和纳什均衡一点儿关系都没
有。为理解这一点,请想一下图1.1.4所示博弈,纳什均衡给出了惟一
解(下,右),但重复剔除严格劣战略却给出了最大不确定性的预测:
没有任何战略组合被剔除,什么结果都有可能出现。
证明了纳什均衡是一个比重复剔除严格劣战略条件更强的解的概念之后,我们还必须解决一个问题,就是纳什均衡作为博弈解的概念,条
件是否太强了,即我们能否确定纳什均衡一定是存在的?纳什(1950)
证明了在任何有限博弈(即参与者n和战略集S1 ,…,Sn 都是有限的
博弈)中,都存在至少一个纳什均衡(这一均衡可能包含了混合战略,我们将在1.3.A中讨论,并参见1.3.B中关于纳什定理的精确表述)。古
诺(1838)在双头垄断模型这一特定的环境中提出了同样的均衡概念,并通过构造的方法证明了模型中均衡的存在性(参见第1.2.A节)。在
本书的每一个应用分析中,我们都将沿袭古诺的思路:即将通过构造一
个纳什均衡(或条件更强的均衡)的方法,证明均衡本身的存在性。不
过在一些理论章节中,也有直接依据纳什定理(或条件更强时的类似定
理),简单断定均衡存在的情况。
我们用另一经典例子作为本节小结——性别战博弈。这一例子表明
一个博弈可以有多个纳什均衡,并且在第1.3.B和第3.2.A节讨论混合战
略时也用得到。关于这一博弈的传统表述(要知道这一博弈从20世纪50
年代就开始使用了),是一男一女试图决定安排一个晚上的娱乐内容,我们分析这一博弈的中性版本。不在同一地方工作的帕特和克里斯必须
就去听歌剧和看职业拳击赛选择其一,帕特和克里斯都希望两人能在一
起渡过一个夜晚,而不愿分开,但帕特更希望能一起看拳击比赛,克里
斯则希望能在一起欣赏歌剧,如下面双变量矩阵所示:
性别战博弈
(歌剧,歌剧)和(拳击,拳击)都是纳什均衡。
以上我们论证了如果博弈论可以为一个博弈提供惟一解,此解一定
是一个纳什均衡。这一命题没有提及博弈论不能提供惟一解的可能情况。同时还论证了如果参与者之间能就如何进行给定的博弈达成一个协
议,该协议也一定是一个纳什均衡,但这一命题同样没有考虑不能达成
协议的可能情况。在一些有多个纳什均衡的博弈中,有一个均衡比其他
均衡明细占优(后面各章的主要理论内容就是找出不同类型博弈的这种
占优均衡),这时,多个纳什均衡的存在本身也不会引出其他问题。不
过,在上面讲的性别战博弈中,(歌剧,歌剧)和(拳击,拳击)又难
分优劣,这说明博弈论对有些博弈并不能提供惟一解,参与者间也不能
就该博弈的进行达成协议。 [5] 在这样的博弈中,纳什均衡用于预测博
弈将如何进行的作用就大大减弱了。
附录1.1.C
本附录是关于1.1.C提到的两个命题的证明,跳过这些证明对以后
内容的理解不会有很大影响。不过,对于不太谙熟正规定义及证明操作
的读者,掌握这些证明程序也是一种有益的训练。
命题A 在n个参与者的标准式博弈G={S1 ,…,Sn ;u1 ,…,un }
中,如果重复剔除严格劣战略剔除掉除战略组合 外的所有
战略,那么这一战略组合为该博弈惟一的纳什均衡。
命题B 在n个参与者的标准式博弈G={S1 ,…,Sn ;u1 ,…,un }
中,如果战略 是一个纳什均衡,那么它不会被重复剔除严
格劣战略所剔除。
由于命题B的证明比较简单,我们先用它作一个热身。论证使用反
证法,即我们先假定一个纳什均衡解在重复剔除严格劣战略的过程中被
剔除掉了,然后证明如果该假定成立,就会有自相矛盾的结果出现,从
而证明假定本身是错误的。
设想战略 是标准式博弈G={S1 ,…,Sn ;u1 ,…,un }的一个纳什均衡,但同时假定(也许在剔除掉 之外的
一些战略之后)在 中, 首先称为应被剔除的严格劣战
略,那么Si 中一定存在尚未被剔除的战略si 严格优于 。代入公式
(DS),我们得到对每一个其他参与者尚未被剔除的战略空间中可能形成的战略组合
(s1 ,…,si-1 ,si+1 ,…,sn )都成立。由于 是均衡战略中第
一个被剔除的战略,均衡战略中其他参与人的战略尚未被剔除,于是作
为(1.1.1)的一个特例,下式成立
但是(1.1.2)和公式(NE)是矛盾的:根据(NE), 必须是
针对( )的最优反应,那么就不可能存在一个
战略si 严格优于 。这一矛盾证明了原命题成立。
证明过命题B,我们事实上已经证明了命题A的一部分:所有需要证
明的只是如果重复剔除严格劣战略剔除了除 之外的所有战
略,该战略是纳什均衡,根据命题B,任何其他的纳什均衡必定同样未
被剔除,这已证明了在该博弈中均衡的惟一性。我们假设G是有限博
弈。
论证同样使用反证法。假定通过重复剔除严格劣战略剔除掉除
外的所有战略,但该战略不是纳什均衡。那么一定有某一
参与者i在他的战略集Si 中存在使公式(NE)不成立,但si 又必须是
在剔除过程某一阶段的严格劣战略。上述两点的正规表述为:在Si 中
存在存在si ,使
并且在参与者i的战略集中存在s'i ,在剔除程序中的某一阶段
ui (s1 ,…,si-1 ,si ,si+1 ,…,sn )
,s'i ,si+l ,…,sn ). (1.1.4)
对所有其他参与者在该阶段剩余战略可能的战略组合(s1 ,…,si-1 ,si+1 ,…,sn )都成立。由于其他参与者的战略始终未被剔除,于是下式作为(1.1.4)的一
个特例成立如果 (即 是si 的严格占优战略),则1.1.5和1.1.3相
互矛盾,这时证明结束。如果s'i ≠Si ,由于s'i 在最终被剔除掉
了,则一定有其他战略si 在其后严格优于s'i 。这样,在不等式
(1.1.4)和(1.1.5)中,分别用s'i 和si 换下si 和s'i 后仍然成
立。再一次,如果 则证明结束,否则,还可构建两个相似的不
等式。由于 是Si 中惟一未被剔除的战略,重复这一论证过程(在一
个有限的博弈中)最终一定能完成证明。1.2 应用举例
1.2.A 古诺的双头垄断模型
正如前节已提到的,古诺(1838)早在一个多世纪之前就已提出了
纳什所定义的均衡(但只是在特定的双头垄断模型中)。古诺的研究现
在已理所当然地成为博弈论的经典文献之一,同时也是产业组织理论的
重要里程碑。这里,我们只讨论古诺模型的一种非常简单的情况,并在
以后每章中都会涉及到这一模型的不同变型。本节我们将通过模型说
明:(a)如何把对一个问题的非正式描述转化为一个博弈的标准式表
述;(b)如何通过计算解出博弈的纳什均衡;(c)重复剔除严格劣战
略的步骤。
令q1 、q2 分别表述企业1、2生产的同质产品的产量,市场中该产
品的总供给Q=q1 +q2 ,令P(Q)=a-Q表示市场出清时的价格(更为精
确一些的表述为:Qa时,P(Q)=0)。设企业
i生产qi 的总成本Ci (qi )=cqi ,即企业不存在固定成本,且生产每
单位产品的边际成本为常数c,这里我们假定c
为求出古诺博弈中的纳什均衡,我们首先要将其化为标准式的博
弈。前节已讲过,博弈的标准式表述包含下列要素:(1)博弈的参与
人,(2)每一参与人可以选择的战略,(3)针对每一个可能出现的参
与人的战略组合,每一参与人的收益。双头垄断模型中当然只有两个参
与人,即模型中的两个垄断企业。在古诺的模型里,每一企业可以选择
的战略是其产品产量,我们假定产品是连续可分割的。由于产出不可能
为负,每一企业的战略空间就可表示为Si =[0,∞),即包含所有非负
实数,其中一个代表性战略si 就是企业选择的产量,qi ≥0。也许有
的读者提出特别大的产量也是不可能的,因而不应包括在战略空间之
中,不过,由于Q≥a时,P(Q)=0,任一企业都不会有qi >a的产出。
要全面表述这一博弈并求其均衡解,还需把企业i的收益表示为它
自己和另一企业所选择战略的函数。我们假定企业的收益就是其利润
额,这样在一般的两个参与者标准式博弈中,参与者i的收益ui (si,sj )就可写为: [7]
πi (qi ,qj )=qi [p(qi +qj )-c]=qi [a-(qi +qj )-c].
上节我们讲过,在一个标准式的两人博弈中,一对战略( )
如是纳什均衡,则对每个参与者i, 应该满足
上式对Si 中每一个可选战略si 都成立,这一条件等价于:对每个
参与者i, 必须是下面最优化问题的解:
在古诺的双头垄断模型中,上面的条件可具体表述为:一对产出组
合 若为纳什均衡,对每一个企业i, 应为下面最大化问题
的解:
设 (下面将证明该假设成立),企业i最优化问题的一阶
条件既是必要条件,又是充分条件;其解为
那么,如果产量组合( )要成为纳什均衡,企业的产量选
择必须满足:
且
解这一对方程组得均衡解的确小于a-c,满足上面的假设。
对这一均衡的直观理解非常简单。每一家企业当然都希望成为市场
的垄断者,这时它会选择qi 使自己的利润πi ,(qi ,0)最大化,结
果其产量将为垄断产量qm =(a-c)2并可赚取垄断利润πi (qi ,0)
=(a-c)2 4。在市场上有两家企业的情况下,要使两企业总的利润最
大化,两企业的产量之和q1 +q2 应等于垄断产量比如qi =qm 2时就可
满足这一条件。但这种安排存在一个问题,就是每一家企业都有动机偏
离它:因为垄断产量较低,相应的市场价格就比较高,在这一价格下每
家企业都会倾向于提高产量,而不顾这种产量的增加会降低市场出清价
格(为更清楚地理解这一点,参见图1.2.1,并检验当企业1的产量为qm
2时,企业2的最佳产量并不是qm 2)。在古诺的均衡解中,这种情况
就不会发生,两企业的总产量要更高一些,相应地使价格有所降低。习
题1.4是关于n个寡头垄断企业的情况,垄断企业一方面希望提高产量,但又不愿因此而使市场出清价格下降,请分析这相互矛盾的两方面是如
何取得均衡的。
如果认为代数方式解纳什均衡过于抽象,难以理解,我们还可以通
过图形求解,方法如下。等式(1.2.1)给出的是针对企业j的均衡战略
时企业i的最优反应,同样的方法我们可以推导出针对企业1的任意
一个战略企业2的最优反应,和针对企业2任意一个战略企业1的最优反
应。假定企业1的战略q1 满足q1
类似地,如果q2
如图1.2.1所示,这两个最优反应函数只有一个交点,其交点就是
最优产量组合( )。
求解纳什均衡还有第三种方法,即运用重复剔除严格劣战略。在本
例中,这一程序只得到惟一解——根据附录1.1.C中的命题A,一定为纳
什均衡解( )。完整的过程需要无限次剔除,每一步都从两个
企业剩余的战略空间内剔除一个区间,我们在这里只讨论前两步。第一
步,垄断产量qm =(a-c)2严格优于其他任何更高的产量,即对任意x
>0,πi (qm ,qj )>πi (qm +x,qj )对任意的qj ≥0)都成
立。证明如下:如果Q=qm +x+qj
且并且如果Q=qm +x+qj ≥a,则P(Q)=0,生产较低的产出就会提高
利润。第二步,在高于qm 的产量被剔除后,产量(a-c)4严格优于任
何更低的产量,即对任意在0到(a-c)4之间的x,πi [(a-c)4,qj ]>πi [(a-c)4-x,qj ]对任意在0到(a-c)2之间的qj 都成
立,证明如下:
且
经过以上两步剔除,每一企业选择产量的战略空间只剩下了(a-
c)4到(a-c)2之间的区间。重复上面的过程可以把剩余战略空间限
制得越来越小。到达极限时,这一区间就成为一个点 。
重复剔除严格劣战略的方法也可以用图形来描述,这要用到我们前
面的一个观察结论(附注1,同时参见1.3.A中的讨论):当且仅当对其
他参与者的战略,无法作出这样的推断,使某一战略成为最优反应战
略,该战略为严格劣战略。由于本模型只有两个企业,我们可以将这一
结论化为:当且仅当没有任何qj 可使qi 成为企业i的最优反应战略
时,qi 为严格劣战略。我们仍只讨论重复剔除过程的前两步。第一,对企业i而言,生产超过垄断产量qm =(a-c)2永远不会是最优反应。
我们以企业2的最优反应函数为例来证明这一点:在图1.2.1中,当q1=0时,R2 (q1 )等于qm ,且随q1 的增加而递减。即对任意的qj ≥0
如果企业i相信企业j将选择qj ,企业i的最优反应就必然小于或等于qm;不存在这样的qj ,使i的最优反应超过qm 。第二,已知企业j产量的
上限,我们可以导出企业i最优反应的下限:如果qj ≤(a-c)2,则
有Ri (qj )≥(a-c)4,如图1.2.2所示企业2的最优反应。 [8]
图1.2.2
和上面相似,重复这一剔除过程就会得到单一的产量。
为总结本节内容,我们把古诺模型稍作变动,使重复剔除严格劣战
略的程序不能得到惟一解。要做到这一点,只需在上面的双头垄断模型
中加入一个或更多的企业。我们将会发现讨论双头垄断时的前两步中,第一步依然成立,但是这一过程也只能中止于此了。也就是说,当企业
数目多于两个时,重复剔除严格劣战略只能得到非常不精确的预测,即
每个企业的产出不会超过垄断条件下的产量。(这与图1.1.4非常类
似,在那里这一方法不能剔除掉任何战略。)
为严谨起见,我们考虑3个企业的例子。令Q-i 表示除i之外的企业
选择的产出之和,并令πi (qi ,Q-i )=qi (a-qi -Q-i -c)),且
qi +Q-i
时垄断产出qm =(a-c)2严格优于任何更高的产量。即对任意x>0,πi (qm ,Q-i )>πi (qm +x,Q-i )对所有Q-i ≥0都成立。这和
双头垄断条件下的第一步完全相同。不过,由于除i之外还有两个企
业,而qj 和qk 都在0到(a-c)2之间,我们对Q-i 所能作的惟一界定
就是在0和a-c之间。这也意味着对企业i而言,任何qi ≥0都不是严格
劣战略,因为对在0到(a-c)2间的任意qi ,都存在相应的在0到a-c
间的Q-i (具体地说,Q-i =a-c-2qi ),使qi 成为企业i针对Q-i 的最
优反应战略。从而就无法再对其余战略空间做进一步剔除。
1.2.B 贝特兰德的双头垄断模型
下面我们讨论双头垄断中两个企业相互竞争的另一模型。贝特兰德
(1883)提出企业在竞争时选择的是产品价格,而不像古诺模型中选择
产量。首先应该明确贝特兰德模型和古诺模型是两个不同的博弈,这一
点十分重要:参与者的战略空间不同,收益函数不同,并且(随后就可
清楚地看到)在两个模型的纳什均衡中,企业行为也不同。一些学者分
别用古诺均衡和贝特兰德均衡来概括所有这些不同点,但这种提法有时
可能会导致误解:它只表示古诺和贝特兰德博弈的差别,以及两个博弈
中均衡行为的差别,而不是博弈中使用的均衡概念不同。在两个博弈
中,所用的都是上节我们定义的纳什均衡。
我们考虑两种有差异的产品(产品完全相同的情况参见习题
1.7)。如果企业1和企业2分别选择价格p1 和p2 ,消费者对企业i的产
品的需求为:
qi (pi ,pj )=a-pi +bpj ,其中6>0,即只限于企业i的产品为企业j产品的替代品的情况(这
个需求函数在现实中并不存在,因为只要企业j的产品价格足够高,无
论企业i要多高的价格,对其产品的需求都是正的。后面将会讲到,只
有在b<2时问题才有意义)。和前面讨论过的古诺模型相似,我们假定
企业生产没有固定成本,并且边际成本为常数c,c
时行动(选择各自的价格)的。
和上节相同,要寻找纳什均衡首先需要把对问题的叙述化为博弈的
标准式。参与者仍为两个,不过这里每个企业可以选择的战略是不同的
价格,而不再是其产品产量。我们假定小于0的价格是没有意义的,但企业可选择任意非负价格——比方说用便士标价的商品,并无最高的价
格限制。这样,每个企业的战略空间又可以表示为所有非负实数Si =
[0,∞),其中企业i的一个典型战略si 是所选择的价格pi >0。
我们仍假定每个企业的收益函数等于其利润额,当企业i选择价格
pi ,其竞争对手选择价格pj 时,企业i的利润为:
πi (pi ,pj )=qi (pi ,pj )[pi -c]=[a-pi +bpj ][pi -c].
那么,价格组合( )若是纳什均衡,对每个企业i, 应
是以下最优化问题的解:
对企业i求此最优化问题的解为
由上可知,如果价格组合( )为纳什均衡,企业选择的价
格应满足
解这一对方程式得:
1.2.C 最后要价仲裁
许多公共部门的职工是不允许罢工的,这时,有关工资的分歧通过
具有约束力的仲裁解决。(棒球联合会在主要的机制上更满足这一条
件,但在经济上的重要性就差多了)很多其他争议,包括医疗事故、股
票持有人对其股票经纪人的投诉等,也多通过仲裁解决。较为重要的仲
裁形式有两类:协议仲裁和最后要价仲裁。在最后要价仲裁中,争议双
方各自就工资水平要价,仲裁人选择其中之一作为仲裁结果;在协议仲
裁中,与之不同的是,仲裁人可自由选定任意工资水平作为仲裁结果。
本节我们根据法伯(1982)的研究,导出在最后要价仲裁模型处于纳什均衡时,博弈双方对工资水平的要价。 [9]
图1.2.3
假定参与争议的双方一为企业,一为工会,争议由工资而起。博弈
进行的时序如下。第一步,企业和工会同时开出自己希望的工资水平,分别用wf 和wu 表示。第二步,仲裁人在二者之中选择其一作为结果。
(与许多被称为静态的博弈相似,它其实属于将在第2章讨论的动态博
弈,只不过这里我们通过对仲裁者第二步行为的假定,将其简化为企业
和工会之间的静态博弈)假定仲裁人本身对工资水平有自己认为合理的
方案,用x来表示这一理想值,进一步假定在观测到双方要价wf 和wu
后,仲裁人只是简单选择距x最为接近的要价:设若Wf
们的直觉一致,后面将会证明它是成立的),如果x<(wf +wu )2,仲裁者将选择wf ;如果x>(wf +wu )2则选择wu ,参见图1.2.3。
(至于x=(wf +wu )2的情况出现时,选择哪一个都无关紧要,不妨
设仲裁者掷硬币决定)仲裁者知道x,但参与双方都不知道,他们相信x
是一个随机变量,其累积分布函数为F(x),相应的概率密度函数为
f(x) [10] 。根据我们对仲裁者行为的假定,如果双方的要价分别为wf
和wu ,那么双方推断wf 被选中的概率Prob{wf 被选}和wu 被选中的概
率Prob{wu 被选}分别表示为:且
据此,期望的工资水平为
我们假定企业的目标是使期望工资最小化的仲裁结果,工会则设法
使其最大化。若双方的要价 是这一企业和工会间博弈的纳什
均衡, 必须满足: [11]
且 必须满足:
从而,双方对工资的要价组合 必须满足上面最优化问题
的一阶条件,为:
及
(后面我们再讨论上面一阶条件的充分性)由于这两个一阶条件的
等号左边完全相同,其右边也应该相等,这意味着
即,双方要价的平均值一定等于仲裁者偏好方案的中值。把(1.2.2)代入任何两个一阶条件之一可得
它表示双方要价之差等于仲裁者偏好方案中值点概率密度的倒数。
为更好地从直观上理解这一比较静态结果,下面我们考虑一个具体
例子。设仲裁者的偏好方案遵从期望值为m,方差σ2 的正态分布,密
度函数为
(在此例中,我们还可以证明前面给出的一阶条件同时也是充分条
件。)因为正态分布在其期望值两侧的分布是对称的,因此其中值等于
其期望值m。这时(1.2.2)就成为
且(1.2.3)成为
于是,纳什均衡的要价为
和
这里,双方的均衡要价以仲裁者偏好方案的期望值(即m)为中心
对称,且要价之差随双方对仲裁者偏好方案不确定性(即σ2 )的提高
而增大。
对这一均衡结果的直观理解也很简单,博弈的每一方都需进行权
衡,一个更为激进的要价(即工会更高的要价或企业更低的出价)一旦被仲裁者选中就会给自己带来更高的收益,但其被选中的可能性却会相
应降低(在第3章第1节蜡封出价拍卖中我们还会看到相似的得失权衡:
较低的价格如果中标就会获得更好的收益,但却会减少中标的机会)。
当对仲裁者偏好方案的不确定程度增加(即σ2 变大)时,双方的要价
之所以能更为激进,是因为一个更激进的价格与仲裁者偏好方案有较大
差别的可能性变小了。相反,如果几乎不存在任何不确定性,双方都不
敢开出一个离期望值很远的要价来,因为仲裁者选择离m最近的方案的
可能性非常大。
1.2.D 公共财问题
至迟从休谟(1739)开始,政治哲学和经济学家已经认识到如果公
民只关注个人福利,公共物品就会出现短缺,并且公共资源也会过度使
用。今天,只要随便看一下地球的环境,就能体会到这一观念的力量。
哈丁(Hardin,1968)被广为引用的论文使这一问题引起了非经济学者
的关注。在此,我们分析牧场的例子。
考虑一个有n个村民的村庄,每年夏天,所有村民都在村庄公共的
草地上放牧。用gi 表示村民i放养羊的头数,则村庄里羊的总头数G=g1
+…+gn 。购买和照看一只羊的成本为c,c不随一户村民拥有羊的数目
多少而变化。当草地上羊的总头数为G时,一个村民养一只羊的价值为
υ(G)。由于一只羊要生存,至少需要一定数量的青草,草地可以放
牧羊的总数有一个上限Gmax :当G
时,υ(G)=0。还有,由于最初的一些羊有充足的空间放牧,再加一
只不会对已经放养的羊产生太大影响,但当草地上放养羊的总数已多到
恰好只能维生的时候(即G恰好等于Gmax 时),再增加一只就会对其他
已经放养的羊带来极大损害。用公式表述为:对,G
0,且υ(G)<0,如图1.2.4所示。图1.2.4
春天时,村民同时选择计划放养的羊的数量。假定羊是连续可分割
的,村民i的一个战略就是他选择的在村庄草地上放养羊的数量,gi 。
假设战略空间为[0,∞),它包含了可以给村民带来收益的所有可能选
择;[0,Gmax )其实也足够了。当其他村民养羊数量为(g1 ,…,gi-1
,gi+1 ,…,gn )时,村民i放养gi 只羊获得的收益为
gi ·υ(g1 +…+gi-l +gi +gi+1 +…+gn )-cgi . (1.2.4)
这样,若 为纳什均衡,则对每个村民i,当其他村民
选择 时,必须使(1.2.4)最大化。这一
最优化问题的一阶条件为
这里 代表 ,将 代入
(1.2.5),并把所有村民的一阶条件加总,然后再除以n得其中,G 表示 。但是,全社会的最优选择,用G
表示,应满足
它的一阶条件为
υ(G +G υ'(G )-c=0. (1.2.7)
将(1.2.6)与(1.2.7)相比较可知, [12] G >G :和社会最优
的条件相比,纳什均衡时放养羊的总数太多了。(1.2.5)所示的一阶
条件表示一个已经放养gi 只羊的村民再多养一只羊的收益(或更严格
一点讲,是再多养“一点儿”羊的收益)。这多出的一只羊的价值为
,其成本为c。对该村民已经养的羊的损害为每只羊
,或总共为 。公共资源被过度使用了,因为每个村民只考虑他们自己的利益,并不管其行为对其他村民带来的
后果,这就出现了(1.2.6)中的 ,而非(1.2.7)中的G
υ'(G )。1.3 理论发展:混合战略和均衡的存在性
1.3.A 混合战略
在1.1.C中我们把定义为参与者i可以选择的战略集,并且对每一个
参与者i, 为其针对另外n-1个参与者所选战略的最优反应,则战略
组合 为博弈的纳什均衡,即
对Si 中每一si 都成立。根据这一定义,下图所示“猜硬币”的博
弈是不存在纳什均衡的。
猜硬币
在此博弈中,每一参与者的战略空间都是(正面,背面)。为理解
矩阵表中所列参与者各自的收益,设想每一参与人拿有一枚硬币,并必
须选择是出正面向上还是背面向上。若两枚硬币是一致的(即全部正面
向上或全部背面向上),则参与人2赢走参与人1的硬币;如果两枚硬币
不一致(一正一反),参与人1赢得参与人2的硬币。在此博弈中,没有
一组战略能够满足(NE)的条件,因为如果参与者的战略是一致的——
(正面,正面)或(背面,背面)——那么参与人1就希望能改变战
略,如果参与者的战略不一致——(正面,背面)或(背面,正面)
——则参与人2将希望能改变战略。猜硬币博弈一个非常突出的特点是每个参与者都试图能先猜中对方
的战略。这一类博弈在扑克、棒球、战争等其他环境中也经常会发生。
在用扑克牌赌博的博弈中,类似的问题是如何决定使诈的次数:如果大
家都知道参与者i是从来不使诈的,那么任何时候当i下很高的赌注时他
的对手就会认输,但这又使得i偶然使诈会有利可图;另一方面,使诈
次数过多亦非上策。在棒球比赛中,假设投球手既可以掷出快球,又可
掷出曲线球,那么击球手能够击中任何一类投球的前提是,他能正确估
计到投球手将掷出哪一类球。与之相似,在战争中,假设进攻方可能在
两个攻击点(或两条进攻路线,比如“陆路或水路”)中选择其一,防
御方可以抵御来自任一方向的攻击,但也只在它正确预测到进攻路线的
前提下。
在博弈中,一旦每个参与者都竭力猜测其他参与者的战略选择,就
不存在纳什均衡(至少不存在第1.1.C节所定义的纳什均衡),因为这
时参与者的最优行为是不确定的,而博弈的结果必然要包含这种不确定
性。现在引入混合战略的概念,我们可以将其解释为一个参与者对其他
参与者行为的不确定性。(这一解释被豪尔绍尼(Harsanyi,1973)深
化,在第3.2.A节中我们将进一步讨论到)在下一节我们将把纳什均衡
的定义扩展到包含混合战略,从而可以分析诸如猜硬币、扑克、棒球及
战争等博弈的解出现的不确定性。
规范地表述,参与者i的一个混合战略是在其战略空间Si 中(一些
或全部)战略的概率分布,此后我们称Si 中的战略为i的纯战略(pure
strategies)。对本章所分析的完全信息同时行动博弈来说,一个参与
者的纯战略就是他可以选择的不同行动,例如在猜硬币博弈中,Si 内
含有两个纯战略,分别为正面和背面,这时参与者i的一个混合战略为
概率分布(q,1-q),其中q为出正面向上的概率,1-q为出背面向上的
概率,且0≤q≤1混合战略(0,1)表示参与者的一个纯战略,即只出
背面向上,类似地,混合战略(1,0)表示只出正面向上的纯战略。
作为混合战略的第二个例子,请回顾图1.1.1所示博弈,参与者2有
三个纯战略:左、中、右,这时他的一个混合战略为概率分布(q,r,1-q-r),其中q表示出左的概率,r表示出中的概率,1-q-r表示出右的
概率,和前面相同,0≤q≤1,且这里还应满足0≤r≤1及0≤q+r≤l。
在此博弈中,混合战略(13,13,13)表示参与者出左、中、右的
概率相同,而(12,12,0)表示出左、中的概率相同,但绝不可能
选择出右。和在所有情况下一样,参与者的一个纯战略只是混合战略的一种特例,例如参与者2只出左的纯战略可表示为混合战略(1,0,0)。
更为一般地,假设参与者i有K个纯战略:Si ={si1 ,…,siK },则参与者i的一个混合战略是一个概率分布(Ρi1 ,…,ΡiK ),其中
表示对所有k=1,…,K,参与者i选择战略sik 的概率,由于Ρik 是一
个概率,对所有k=1,…,K,有0≤Ρik ≤1且Ρi1 +…+ΡiK =1。我们
用Ρi 表示基于Si 的任意一个混合战略,其中包含了选择每一个纯战
略的概率,正如我们用si 表示内任意一个纯战略。
定义 对标准式博弈G={S1 ,…,Sn ;u1 ,…,un },假设Si =
{si1 ,…,siK }。那么,参与者i的一个混合战略为概率分布Ρi
=(Ρi1 ,…,ΡiK ),其中对所有k=1,…,K,0≤Ρik ≤1,且Ρi1
+…+ΡiK =1。
作为本节的一个小结,我们简单地回顾一下第1.1.B节中介绍的严
格劣战略,并说明混合战略对那里的论证所起的潜在作用。当时讲到,如果战略si 为严格劣战略,那么参与者i不可能作出这样的推断(针对
其他参与者的战略选择),他的最优反应战略会是si 。如果我们引入
混合战略,就可证明其逆命题:如果(针对其他参与者的战略选择)参
与者i都不可能作出这样的推断,即其战略si 会成为最优反应战略,则
一定存在另一战略严格优于si 。 [13] 图1.3.1和图1.3.2所示博弈说明
了如果我们只讨论纯战略,这一逆命题是不成立的。图1.3.1
图1.3.1显示出,一个给定的纯战略可能会严格劣于一个混合战
略,即使这个纯战略并不严格劣于其他任何一个纯战略。在这一博弈
中,针对参与人1对参与人2可能行动所作出的任何推断(q,1-q),1
的最优反应要么是T(在q≥12时),要么是M(在q≤l2时),但不会
是B,虽然T或M都不严格优于B。这里的关键在于B是T和M的一个混合战
略的严格劣战略:如果参与者1以12的概率出T,以12的概率出M,则
其期望收益为32,不管2将会选择什么(纯的或混合的)战略,32都
大于选择B时将得到的收益1。这个例子说明了在“寻找另外一个严格优
于的战略”时,混合战略所起的作用。图1.3.2
图1.3.2说明了一个给定的纯战略可以是针对一个混合战略的最优
反应,即使这一纯战略并不是对方任何一个纯战略的最优反应。在此博
弈中,对参与人2的纯战略L和R来说,参与人1的最优反应都不是B,但B
却是针对参与人2的混合战略(q,1-q)9当13
优反应。这一例子说明了混合战略在“参与者i可能持有的推断”中的
作用。
1.3.B 纳什均衡的存在性
本节讨论和纳什均衡的存在性相关的几个问题。第一,我们把第
1.1.C节中纳什均衡的定义扩展到包含混合战略的情况;第二,我们应
用这一扩展后的定义求解猜硬币博弈和性别战博弈的纳什均衡;第三,我们用图示的方法证明任何一个参与者有两个纯战略的两人博弈都存在
纳什均衡(可能包含了混合战略);最后,给出并讨论纳什定理
(1950),它保证了在任何有限博弈(即有限个参与者,并且每个参与
者可选择的纯战略有限的所有博弈)中,都存在纳什均衡(仍可能会包
含混合战略)。
回顾第1.1.C节给出的纳什均衡定义,保证了每一参与者的纯战略
都是其他参与者纯战略的最优反应战略。为把这一定义扩展到包含混合
战略的情况,我们只需要求每一参与者的混合战略是其他参与者混合战略的最优反应。由于任何纯战略都可表示为混合战略——只要令该参与
者所有其他纯战略出现的概率等于0——扩展后的定义完全包括了前一
定义。
对参与者i来讲,参与者j的混合战略代表了他对j将选择战略的不
确定性,并据此计算参与者i对j混合战略的最优反应。我们先以猜硬币
博弈为例,假定参与者1推断参与者2会以q的概率出正面,以1-q的概率
出背面,亦即参与者1推断参与者2将使用混合战略(q,l-q)。据此推
断,参与者1出正面可得的期望收益为q(-1)+(1-q)·1=1-2q,出背
面的期望收益为q·1+(1-q)(-1)=2q-1。由于当且仅当q
为出背面;当q=12时,参与者1出哪一面都是无差异的。余下的就是参
与者1可能的混合战略反应。
令(r,l-r)表示参与者1的混合战略,其出正面的概率为r,对任
意0到1之间的q,现在我们计算r的值,用r (q)表示,从而使(r,1-r)为参与者2选择(q,1-q)时参与者1的最优反应,其结果可以表
示为图1.3.3。当参与者2选择(q,1-q)时,参与者1选择(r,1-r)
的期望收益为:
rq·(-1)+r(l-q)·1+(1-r)q·1+(1-r)(l-q)·(-1)
=(2q+1)+r(2-4q) (1.3.1)
其中,rq是(正面,正面)的概率,r(l-q)是(正面,背面)的
概率,如此等等。 [14] 由于参与者1的期望收益在2-4q>0时随r递增;
在2-4q<0时随r递减,则如果q<12,参与者1的最优反应为r=l(即出
正面);如果q>12,参与者1的最优反应为r=0(即出背面),如图
1.3.3所示r (q)两段水平虚线。这一表述比上面非常相近的表述条
件要强:那里我们只考虑纯战略,并发现如果q<12,正面为最优纯战
略,如果q>12,背面为最优纯战略;这里我们考虑所有的纯战略和混
合战略,同样发现如果q<12,正面是所有战略(包含纯战略和混合战
略)中的最优选择,如果q>12,背面是所有战略中最优的。图1.3.3
当q=12时,参与者对(q,1-q)最优反应的性质有所变化。前面
已经提到,在q=l2时,参与者1选择纯战略正面或背面是无差异的。而
且,因为参与者1在(1.3.1)中的期望收益在q=12时与r无关,所有混
合战略(r,1-r)对1都是无差异的。也就是说,当q=12时,对于0到1
之间的任何r,混合战略(r,1-r)都是(q,1-q)的最优反应。那
么,r (12)就是[0,1]间的整个区间,即图1.3.3所示r (q)中
间的竖线段。在第1.2.A节分析古诺模型时,我们称ri (qj )为企业i
的最优反应函数。在这里,因为存在一个q的值,使r (q)有不止一
个解,我们称r (q)为参与者1的最优反应对应(best-response
correspondence)。
为在更为一般的条件下推导出参与者i对参与者j混合战略的最优反应,进一步给出扩展的纳什均衡的正式定义,我们首先分析两个参与者
的情况,从而可以通过最简单的方式说明主要思想。令J表示S1 中包含
纯战略的个数,K表示S2 包含纯战略的个数,则S1 ={s11 ,…,s1J
},S2 ={s21 ,…,s2K },我们用s1j 和s2k 分别表示S1 、S2 中任意一
个纯战略。
如果参与者1推断参与者2将以(Ρ21 ,…,Ρ2k )的概率选择战
略(s21 ,…,Ρ2k ),则参与者1选择纯战略s1j 的期望收益为:
且参与者1选择混合战略P1 (Ρ11 ,…,Ρ1J )的期望收益为:
其中,Ρ1j ×Ρ2k 表示参与者选择s1j 且参与者2选择s2k 的概
率。根据(1.3.3),参与者1选择混合战略P1 的期望收益,等于按
(1.3.2)给出的每一个纯战略{s11 ,…,s1J }的期望收益的加权和,其权重分别为各自的概率(Ρ11 ,…,Ρ1J ),那么,参与者1的混合
战略(Ρ11 ,…,Ρ1J )要成为他对参与者2战略P2 的最优反应,其
中任何大于0的Ρ1j 相对应的纯战略必须满足:
对S1 中每一个s'1j 都成立。这表明,一个混合战略要成为P2 的最
优反应,混合战略中每一个概率大于0的纯战略本身也必须是对P2 的最
优反应。反过来讲,如果参与者1有n个纯战略都是P2 的最优反应,则
这些纯战略全部或部分的任意线性组合(同时其他纯战略的概率为0)
形成的混合战略同样是参与者1对P2 的最优反应。
为给出扩展的纳什均衡的正式定义,我们还需要计算当参与者1和2分别选择混合战略P1 和P2 时参与者2的期望收益。如果参与者2推断参
与者1将分别以(Ρ11 ,…,Ρ1J )的概率选择战略{s11 ,…,s1J }
则参与者2分别以概率(Ρ21 ,…,Ρ2k )选择战略(s21 ,…,s2k)时的期望收益为
在给出υ1 (P1 ,P2 )和P2 )后,我们可以重新表述纳什均衡的
必要条件,即每一参与者的混合战略是另一参与者混合战略的最优反
应:一对混合战略( , )要成为纳什均衡, 必须满足
对S1 中战略所有可能的概率分布P1 都成立,并且 必须满足
对S2 中战略所有可能的概率分布P2 都成立。
定义 在两个参与者标准式博弈G={S1 ,S2 ;u1 ,u2 }中,混合战
略 是纳什均衡的充要条件为:每一参与者的混合战略是另一
参与者混合战略的最优反应,即(1.3.4)和(1.3.5)必须同时成立。
下面我们用这一定义分析猜硬币博弈和性别战博弈,为此,我们运
用图1.3.3中介绍的图示法,把参与者i对参与者j混合战略的最优反应
在图上表示出来。为完成图1.3.3的内容,还需计算最优的q值,用q
(r)表示,从而使(q,l-q)成为参与者2对参与者1战略(r,1-r)
的最优反应。结果如图1.3.4所示,如果r<12,则2的最优反应为背
面,于是q (r)=0;相似地,如果r>12,则2的最优反应是正面,于是q (r)=1。如果r=12,则不仅参与者2出正面和出背面是无差别
的,而且对其所有混合战略(q,1-q)也都完全相同,于是q (12)
为整个区间[0,1]。图1.3.4
把图1.3.4的纵轴和横轴互换并旋转,我们得到图1.3.5。单纯表示
参与者2对参与者1混合战略的最优反应,图1.3.5不如图1.3.4更加直
观,但它可与图1.3.3合并成图1.3.6。图1.3.6和第1.2.A节分析古诺模
型时的图1.2.1相类似,正如那里的最优反应函数r2(q1 )和r1 (q2)的交点确定了古诺博弈的纳什均衡,在这里最优反应对应r (q)和
q (r)的交点给出了猜硬币博弈的混合战略纳什均衡:如果参与者i
的战略是(12,12),则参与者j的最优反应为(12,12),它满
足纳什均衡的要求。图1.3.5图1.3.6
应该强调的是,这样一个混合战略纳什均衡并不是建立在任何参与
者扔硬币、掷骰子或其他随机选择行为的基础之上,我们可以把参与者
j的混合战略解释为参与者i对参与者j将会选择哪一个(纯)战略的不
确定性。例如在棒球比赛中,投球手也许是基于以往投球的成功率决定
是投快速直线球还是投曲线球。如果击球手了解投球手是如何选择的,但并不能观察到他以往的成功率,那么击球手就可能会推断投球手投出
快球和投出直线球的可能性是相等的。这时我们把击球手的推断表示为
投球手采取混合战略(12,12),而事实上投球手是基于击球手所不
了解的信息选择一个纯战略。更为一般地讲,我们可以理解为参与者j
被赋予了一小点儿内部信息,基于他所掌握的内部信息,参与者j更倾
向于选择某一相关的纯战略。不过,由于参与者i并不能观测到j的私人
信息,i并不能确定j的选择,我们用j的混合战略表示i的这种不确定
性。在第3.2.A节,我们还将为这种对混合战略的解释提供更为正式的表述。
作为混合战略纳什均衡的第二个例子,考虑第1.1.C节中的性别战
博弈,令(q,1-q)为帕特的一个混合战略,其中他选择歌剧的概率为
q,且令(r,1-r)为克里斯的一个混合战略,其中他选择歌剧的概率
为r。如果帕特的战略为(q,1-q),则克里斯选择歌剧的期望收益为
q×2+(1-q)×0=2q,选择拳击的期望收益为q×0+(l-q)×1=1-q。
从而,在q>13时,克里斯的最优反应为歌剧(即r=1);q<13时,克里斯的最优反应为拳击(即r=0);q=l3时,任何可行的r都是最优
反应。类似地,如果克里斯的战略为(r,1-r),则帕特选择歌剧的期
望收益为r×1+(1-r)×0=r,选择拳击的期望收益为r×0+(1-r)
×2=2(1-r)。从而,r>23时,帕特的最优反应是歌剧(即q=l);r
<23时,帕特的最优反应是拳击(即q=0),r=23时,任何可行的q值
都是最优反应。如图1.3.7所示,最优反应对应的交点之一,即帕特的
混合战略(q,1-q)=(13,23)与克里斯的混合战略(r,1-r)
=(23,13)就是原博弈的一个纳什均衡。图1.3.7
本例和图1.3.6的不同之处在于,后者两位参与者的最优反应对应
只有一个交点,图1.3.7中r (q)和q (r)有三个交点:(q=0,r=0)、(q=1,r=1)及(q=13,r=23)。另外两个交点分别代表了
第1.1.C节讲过的两个纯战略纳什均衡(拳击、拳击)和(歌剧,歌
剧)。
在任何博弈中,一个纳什均衡(包括纯战略和混合战略均衡)都表
现为参与者间最优反应对应的一个交点,即使该博弈的参与者在两人以
上,或有些或全部参与者有两个以上的纯战略。不过遗憾的是,惟一一
种可以用图形简明表示出参与者之间最优反应对应的博弈,就是上面介
绍的每个参与者只有两个纯战略的两人博弈。下面我们用图示法论证任
何这种两人博弈都存在纳什均衡(可能包含了混合战略)。图1.3.8
考虑图1.3.8给出的参与者1的收益情况。x和z,y和w各自的相对大
小对博弈的结果十分重要,由此可以分为以下四种主要情况:(i)x>
z且y>w,(ii)x
我们首先讨论这四种主要情况,然后再分析涉及x=z或y=w时的情况。
图1.3.9
对参与者1,在情况(i)中,上严格优于下;在情况(ii)中,下
严格优于上。根据前面讲过的严格劣战略定义:当且仅当参与者i(对
其他参与者所选择的战略)不能作出这样的推断,使选择战略si 成为
最优反应,则si 为严格劣战略。因此,如果(q,1-q)是参与者2的一
个混合战略,其中q为2选择左的概率,那么在情况(i)中,没有q能使
参与者1选择下成为最优,并且在情况(ii)中,没有q能使1选择上成为最优。令(r,1-r)表示参与者1的一个混合战略,其中r是1选择上
的概率,我们可以在图1.3.9中分别表示出情况(i)和情况(ii)下的
最优反应对应。(在这两种情况下,最优反应对应事实上也是最优反应
函数,因为没有q值使得参与者1有多个最优反应。)
图1.3.10
在情况(iii)和情况(iv)中,上和下都不是严格劣战略,那
么,必定对某些q值,选择上是最优的,对另一些q值,选择下是最优
的。令q'=(w-y)(x-z+w-y),那么在情况(iii)中,q>q'时上是
最优的,q
1.3.10给出。
由于x=z时,q'=1,而y=w时,q'=0,所有包含x=z或:y=w的情况
下,最优反应对应将呈“L”状(即单位正方形中相邻的两条边)我们
可设想图1.3.10中(iii)或(iv),在q'=0及q'=1时的情况。
在图1.3.8中分别加入任意的参与者2的收益值,经过与上面类似的
计算可得同样的四个最优反应对应,只不过与图1.3.4相同,水平轴代
表r值,而纵轴代表q值。做从1.3.4到1.3.5同样的处理,旋转这四个图
形的坐标系,可以得到图1.3.11和图1.3.12(在图1.3.12中,对r'的定
义与图1.3.10中q'类似)。
决定性的一点在于,给定参与者1的四种最优反应对应的任何一
种,即图1.3.9或图1.3.10中的任何一条r (q),及参与者2的任何四种之一,即图1.3.11或图1.3.12中的任何一条q (r),这一组最优反
应对应至少有一个交点,于是博弈至少有一个纳什均衡,对16种可能的
最优反应对应组合情况进行逐一检验,我们留在习题中进行。这里只定
性地给出可以得到的结论。可能出现的情况有:(1)惟一的纯战略纳
什均衡,(2)惟一的混合战略纳什均衡,(3)两个纯战略纳什均衡和
一个混合战略纳什均衡。前面讲过的图1.3.6的猜硬币博弈是第二种情
况的一个例子,图1.3.7的性别战博弈是第三种情况的一个例子。囚徒
困境则属于第一种情况,它是由r (q)的(i)或(ii)和q (r)
的(i)或(ii)结合产生的。 [15]
图1.3.11图1.3.12
本节的最后,我们讨论在更为一般的博弈中纳什均衡的存在性。如
果上面关于两人两个纯战略博弈的论证不使用图示的方法,而用数学方
法,则可以适用于一般的任意有限战略空间的n人博弈。
定理 (纳什,1950):在n个参与者的标准式博弈G={S1 ,…,Sn;u1 ,…,un }中,如果n是有限的,且对每个i,Si 是有限的,则
博弈存在至少一个纳什均衡,均衡可能包含混合战略。图1.3.13
纳什定理的证明要用到不动点定理。作为不动点定理的一个简单例
子,假定f(x)是一个定义域和值域都在[0,1]之间的连续函数,则布
劳尔(Brouwer)的不动点定理保证了存在至少一个固定的点——即在
[0,1]中存在至少一个值x ,使f(x )=x 。图1.3.13给出了一个例
子。
运用不动点定理证明纳什定理包含两个步骤:(1)证明一个特定
对应上的任何不动点都是纳什均衡;(2)使用一个恰当的不动点定理
证明这一对应一定有一个不动点。这里所说的对应指n人最优反应对
应,所指的“恰当的不动点定理”应归功于角谷(Kakutani,1941),他将布劳尔的定理从函数推广到(符合一定条件的)对应。
n人最优反应对应由n个单个参与人的最优反应对应通过下述计算得
出:考虑任意的一个混合战略组合(Ρ1 ,…,Ρn ),对每一个参与
者i,求出i针对其他参与者混合战略(Ρ1 ,…,Ρi-1 ,Ρi+1 ,…,Ρn )的最优反应。然后构建每一参与者一个上述最优反应的所有可能
组合的集合(正式地说,即导出每一参与者的最优反应对应,然后构建
这n个参与者最优反应对应的交叉积(笛卡尔积))。一个混合战略组
合 是这一对应集中的不动点,如果 属于参与
者对 的最优反应的所有可能组合的集合。即,对每个
i, 必须是参与者i对 的最优反应(之
一),这又恰好符合纳什均衡的条件,即 是一个纳什均
衡。这就完成了第(1)步。
图1.3.14
第(2)步的证明要用到每一参与者的最优反应对应都在某种条件
下连续这一事实。在布劳尔的不动点定理中连续性的作用可在图1.3.13
构建的f(x)看出:如果f(x)是不连续的,不动点就不一定存在。例
如在图1.3.14中,对所有x
x'。 [16] 为理解图1.3.14中的f(x)和参与者的最优反应对应的不同之
处,考虑图1.3.10中的情况(Ⅲ):当q=q'时,r (q)包括了0、1以及中间整个区间(稍微正式一点表述,即r (q')包括了当q从左侧靠
近q'时,r (q)的极限,以及q从右侧靠近q'时,r (q)的极限,并且包括这两个极限之间的所有r值)。如果图1.3.14中f(x')要成为
类似的参与者1的最优反应对应r (q')’则f(x')的值不仅应包含
实心点(如图所示),还应包含空心点及整个虚线区间,这时f(x)就
会在x'有一个不动点。
每个参与者的最优反应对应总是如图1.3.10所示的r (q'):它
总是包括(借用的一般意义上的)从左侧的极限、从右侧的极限以及其
间的所有值。其原因在前面讨论两个参与者的情况时已经证明:如果参
与者i有n个纯战略都是其他参与者混合战略的最优反应,则参与者i的
这些最优纯战略的任意概率的线性组合(并令其他纯战略的概率为0)
得到的混合战略Pi ,亦是参与者i的最优反应。由于每一参与者的最优
反应对应总是具有这一特性,n人最优反应对应亦具有这一特性;这就
满足了角谷的假定,于是n人最优反应对应有一个不动点。
纳什定理保证了相当广泛种类博弈中均衡的存在性,但第1.2节应
用举例所分析的博弈却不在此列(因为每一参与者的战略空间都是无限
的)。这说明纳什定理中的假定是均衡存在性的充分条件,却不是必要
条件——还有许多博弈,虽不满足定理假定的条件,却同样存在一个或
多个纳什均衡。1.4 进一步阅读
关于重复剔除严格劣战略和纳什均衡的假定,及借用参与者的推断
来解释混合战略,参见布兰登贝格尔(1992)。关于(古诺型)企业选
择产量模型和(贝特兰德型)企业选择价格模型之间的关系,参见克雷
普斯和谢克曼(Scheikman,1983),他们证明在某些条件下,企业面
临生产能力的约束时(企业在选择价格之前,要付出一定成本选择生产
能力),贝特兰德型模型会出现古诺模型的结果。关于仲裁,参见吉本
斯(Gibbons,1988),他说明了在最后要价仲裁及协议仲裁中,仲裁
者所偏好的方案如何依赖于各方的要价中所包含的信息。最后,关于纳
什均衡的存在性,包括纯战略在战略空间中连续的博弈,请参考达斯古
普塔和马斯金(DasguptaMaskin,1986)。1.5 习题与练习
第1.1节
1.1 什么是博弈的标准式?在博弈的标准式中,什么是严格劣战
略?什么是一个纯战略纳什均衡?
1.2 在以下博弈的标准式中,哪些战略不会被重复剔除严格劣战略
所剔除?纯战略纳什均衡又是什么?
1.3 两个人就如何分配一元钱进行谈判,双方同时提出各自希望得
到的份额,分别为s1 和s2 ,且0≤s1 ,s2 ≤1。若s1 +s2 ≤1,则二
人分别得到他们所要的一份;如果s1 +s2 >1,则两个人均一无所获。
求出此博弈的纯战略纳什均衡。
第1.2节
1.4 假定古诺的寡头垄断模型中有n个企业,令qi 代表企业i的产
量,且Q=q1 +…+qn 表示市场总产量,p表示市场出清价格,并假设反
需求函数由p(Q)=a-Q给出(设Q
数c,这里我们设c
求出博弈的纳什均衡。当n趋于无穷时,将会发生什么情况?
1.5 考虑以下两个古诺双头垄断模型的战略空间有限的情况。第
一,假定每个企业必须选择要么生产垄断产出的一半qm 2=(a-
c)4,要么生产古诺均衡产量qc =(a-c)3,任何其他产量都是不允
许的。证明这一非此即彼的博弈是一个囚徒困境式的问题:每一个企业
都有一个严格劣战略,并且在均衡状态下,每一企业的福利都要比他们
相互合作时下降。第二,假设每个企业可以选择qm 2或qc 或第三种产
量q',求出一个q'的值,使得这一博弈在以下方面等价于第1.2.A节中
的古诺模型,即(qc,qc)是惟一的纳什均衡,并且在均衡状态下,每
一企业的福利都比他们相互合作时要低,但两个企业都没有严格劣战
略。
1.6 考虑在古诺双头垄断模型中,反需求函数为p(Q)=a-Q,但两
企业有不同的边际成本,企业1为c1 ,企业2为c2 ,求出当每个企业0
又有什么变化?
1.7 在第1.2.B中,我们分析了产品有差异的贝特兰德双头垄断模
型。同质产品的情况下结论是十分明显的。假设时,消费者对企业i产
品的需求为a-pi ,pi >pj 时为0,pi =pj 时为(a-pi )2。同时假
设不存在固定成本,且边际成本为常数c,这里c
时选择价格,则惟一的纳什均衡就是每个企业的定价均为c。
1.8 设有一批选民在一个单位区间从左(x=0)至右(x=1)均匀分
布,为一个职位参加竞选的每个候选人同时选择其竞选基地(即在x=0
到x=1中间的一个点)。选民观察候选人的选择,然后每一投票人把票
投给其基地离自己最近的候选人。比如,如果有两个候选人,他们分别
在x1 =0.3和x2 =0.6选择基地,则处于x=0.45左边的所有选民都会把票
投给候选人1,右边的人都会把票投给候选人2,这样候选人2就可以得
到55%的选票赢得这场选举。假设候选人只关心他能否当选——他们根
本上一点都不关心其基地!如果有两个候选人,博弈的纯战略纳什均衡
是什么?如果有三个候选人,求出一个纳什均衡。(假设选择同一个基
地的候选人将平分这一基地可得的选票,得票最高的候选人不止一人
时,谁当选由掷硬币来决定。)参见霍特林(Hotelling,1929)关于此类博弈的早期模型。
第1.3节
1.9 什么是标准式博弈的混合战略?什么是标准式博弈的混合战略
纳什均衡?
1.10 证明在1.1节中所分析的3个标准式博弈——囚徒困境、图
1.1.1和图1.1.4中,不存在混合战略纳什均衡。
1.11 解出习题1.2所给博弈的混合战略纳什均衡。
1.12 求出下面标准式博弈的混合战略纳什均衡。
1.13 两个企业各有一个工作空缺,假设企业所给的工资不同(其
原因不在此处讨论,但关系到每一个空缺的价值):企业i给的工资为
wi ,这里(12)w1
份工作,两人同时决定是申请企业1的工作,还是向企业2申请。如果只
有一个工人向一个企业申请,他就会得到这份工作;如果两个工人同时
向一个企业申请工作,则企业随机选择一个工人,另一人就会失业(这
时收益为0)。解出两工人标准式博弈的纳什均衡。(要更进一步了解
企业是如何决定工资的,请参阅蒙哥马利(Montgomery),1991)1.14 证明附录1.1.C中的命题B不仅对纯战略成立,对混合战略同
样成立:在混合战略纳什均衡中,概率大于0的战略一定不会被重复剔
除严格劣战略所剔除。1.6 参考文献
Aumann,R.1974.“Subjectivity and Correlation in
Randomized Strategies”.Journal of Mathematical Economics1:67
—96.
——.1976.“Agreeing to Disagree.”Annals of Statistics4:
1236—39.
——.1987.“Correlated Equilibrium as an Expression of
Bayesian Rationality.”Econometrica55:1—18.
Bertrand,J.1883.“Theorie Mathematique de la Richesse
Sociale.”Journal des Savants499—508.
Brandenburger,A.1992.“Knowledge and Equilibrium in
Games.”Forthcoming in Journal of Economic Perspectives.
Cournot,A.1838.Recherches sur Les Principes Mathematiques
de la theorie des Richesses.English edition:Researches into
the Methematical Principles of the Thoery of Wealth.Edited by
N.Bacon.New York:Macmillan,1897.
Dasgupta,P.,and E.Maskin.1986.“The Existence of
Equilibrium in Discontinuous Economic Games,I:
Theory.”Review of Economic Studies53:1—26.
Farber,H.1980.“An Analysis of Final-Offer
Arbitration.”Journal of Conflict Resolution35:683—705.
Friedman,J.1971.“A Noncooperative Equilirium for
Supergames.”Review of Economic Studies28:1—12.
Gibbons,R.1988.“Learning in Equilibrium Models of
Arbitration.”American Economic Review78:896—912.
Hardin,G.1968“The tragedy of the Commons.”Science162:
1243—48.
Harsanyi,J.1973.“Games with Randomly Disturbed Payoffs:A New Rationale for Mixed Strategy Equilibrium
Points.”International Journal of Game Theory2:1—23.
Hotelling,H.1929.“Stability in Competition.”Economic
Journal39:41—57.
Hume,D.1739.A Treatise of Human Nature.Reprint.London:
J.M.Dent.1952.
Kakutani,S.1941.“A Generalization of Brouwer’s Fixed
Point Theorem.”Duke Mathematical Journal8:457—59.
Kreps,D.,and J.Scheinkman.1983.“Quantity Precommitment
and Bertrand Competition Yield Cournot Outcomes.”Bell Journal
of Economics14:326—37.
Montgomery,J.1991.“Equilirium Wage Dispersion and
Interindustry Wage Differentials.”Quarterly Journal of
Economics106:163—79.
Nash,J.1950.“Equilibrium Points in n-Person
Games.”Proceedings of the National Academy of Sciences36:48
—49.
Pearce,D.1984.“Rationalizable Strategic Behavior and the
Problem of Perfection.”Econometrica52:1029—50.
Stackelberg,H.von.1934.Marktform und
Gleichgevuicht.Vienna:Julius Springer.
[1] 相应的逆命题也很有趣:如果某一参与者(对其他参与者选择的战略)无法作出这样的推
断,从而使战略si 成为他的最优反应,我们能否得到结论,一定存在另一战略是si 的严格占
优战略?答案是肯定的。前提是对“推断”和“另一战略”的正确理解,两者都涉及到将在第
1.3.A节中介绍的混合战略。
[2] 本书的绝大多数例子都取自经济学的实际应用,而很少使用纯数字的抽象例子,这不仅因
为应用本身往往饶有趣味,还因为应用经常是解释理论的较好方式。不过在说明一些基本的理
论原理时,我们有时也求助于没有现实经济含义的抽象例子。
[3] 在第1.3.A节中,我们将区分纯战略和混合战略,那时我们就会看到此处所给的纳什均衡定
义是指纯战略均衡,但有时也可能有混合战略均衡存在。除非有明确说明,本节所说纳什均衡
都是指纯战略均衡。
[4] 这一结论即使在不限于纯战略的条件下也同样成立,因为在这些战略中不存在混合战略纳
什均衡。参见习题1.10。[5] 在第1.3.B节中,我们将描述性别战博弈的第三个纳什均衡(含有混合战略)。不同于(歌
剧,歌剧)和(拳击,拳击)的是,该第三均衡有对称的收益——正如在对称博弈中存在惟一
均衡的情况一样;另一方面,该第三均衡仍是无效率的,因为它的导出违背了协议的原则。不
过,无论我们对性别战博弈中的纳什均衡如何评判,上面的命题仍是成立的:即存在博弈论无
法惟一解,并无法达成协议的博弈。
[6] 企业不选择产出而选择价格的贝特兰德模型(1883),我们将在第1.2.B节进行讨论;企业
选择产量,但一个企业先选,并可被另一企业观察到的斯塔克尔贝里模型(1934)我们将在第
2.1.B节介绍。最后,在第2.3.C中我们还要讨论弗里德曼(Friedman,1971)的模型,其中古
诺模型中两个企业的相互影响多次重复发生。
[7] 请注意这里我们的表示有一个小的变化,使用ui (si ,sj )而非ui (s1 ,s2 ),两
者都表示参与者i的收益是所有参与者所选择战略组合的函数。后面(及在类似的n人博弈中)
我们将穿插使用这两种表示方法。
[8] 这两步证明都有一点儿不完整,因为我们没有考虑当企业i拿不准qj 时的最优反应。设想
企业i不清楚qj ,但相信qj 的期望值为E(qj )。因为πi (qi ,qj )对于qj 是线性的,这种条件下企业i不确定qj 时的最优反应简单等于它确定企业j将选择E(qj )时的最优反应
——书中已有这样的例子。
[9] 这一应用中将涉及一些基本的概率论概念:累计概率分布、概率密度函数和期望值。需要
时我们会给出简单的定义和解释;详细资料请查阅任何一种介绍概率论的教材。
[10] 即,x小于任意值x 的概率可表示为F(x ),并且对x ,导出上面分布的概率密度为
f(x )。由于F(x )是一个概率,所以对任意x 都有0≤F(x )≤1。还有,如果x >
x 则F(x ≥F(x ),于是对任何x ,f(x )≥0。
[11] 下面在建立和求解企业与工会的最优化条件时,我们假定企业的出价总低于工会的要价。
其后,我们将会证明这一假定的正确性。
[12] 如果我们设G ≤G ,那么由于υ'<0,υ(G )≥υ(G ))。类似地,由于
υ<0,有0>υ'(G )≥υ'(G )。最后,G n
格大于(1.2.7)式的左边,但这是不可能的,因为两式的右边都等于0。
[13] 皮尔斯(Pearce,1984)在两人博弈中证明了这一结论,并证明在参与者之间的混合战略
允许相关的条件下,该结论在n人博弈中同样成立,即必须允许参与者i对参与者j行动的推断与
其对参与者k行动的推断相关。奥曼(1987)提出这样的相关性在i的推断中是非常自然的,即
使在j和k是完全独立地作出选择的情况下。例如,i可能会知道j和k都要去商学院,或也许去同
一所商学院,但也许不会知道那里面教授什么课程。
[14] 如果概率(A且B)=概率(A)×概率(B),则事件A和B是独立的。那么,在用rq表示1出
正面同时2也出正面时,我们已隐含了假定1和2相互独立地进行选择,这与我们对同时行动博弈
的限定是一致的。参见奥曼(1974)对相关均衡的定义,它应用于参与者的选择可以相关的博
弈。(由于参与者在选择战略之前观察到一个随机结果,比如硬币在桌面上的转动。)
[15] 包含x=z或y=w时的情况并不违背一组最优反应对应至少有一个交点的结论。相反,除书中
讲到的那3种情况外,还可能存在两个纯战略纳什均衡无混合战略纳什均衡以及连续的纳什均衡
的情况。
[16] f(x')的值由实点决定,空心点表示f(x')不包含这一值。中间的虚线只表示x=x'时,可能取到两个点的值,但不代表也会取到中间任何一点的值。第2章 完全信息动态博弈
本章介绍动态博弈。我们仍集中分析完全信息的博弈(即参与者的
收益函数是共同知识的博弈);有关非完全信息的博弈将在第3章介
绍。其中第2.1节分析完全且完美信息的动态博弈,这是指在博弈进行
的每一步当中,要选择行动的参与者都知道这一步之前博弈进行的整个
过程。从第2.2节到第2.4节,我们讨论完全但不完美信息博弈:在博弈
的某些阶段,要选择行动的参与人并不知道在这一步之前博弈进行的整
个过程。
所有动态博弈的中心问题是可信任性。作为不可置信的威胁的一个
例子,考虑下面两步博弈。第一,参与者1选择支付1000美元钱给参与
者2还是一分不给;第二,参与者2观察参与者1的选择,然后决定是否
引爆一颗手雷把两人一块儿炸死。假设参与者2威胁参与者1,如果他不
付1000美元就引爆手雷,如果参与者1相信这一威胁,他的最优反应是
支付1000美元,但参与者1却不会对这一威胁信以为真,因为它不可置
信:如果给参与者2一个机会,让他把威胁付诸实施,参与者2也不会选
择去实施它,这样参与者1就会一分不付。 [1]
第2.1节分析如下类型完全且完美信息的动态博弈:首先参与者1行
动,参与者2先观察到参与者1的行动,然后参与者2行动,博弈结束。
手雷博弈即属这一类型,斯塔克尔贝里(1934)的双头垄断模型,里昂
惕夫(Leontief,1946)的有工会企业中的工资和就业决定模型亦属这
一类博弈。我们定义此类博弈的逆向归纳解(backwards-induction
outcome)并简要讨论它与纳什均衡的关系(这一关系的详细讨论在第
2.4节)。作为例子,我们解出在斯塔克尔贝里和里昂惕夫模型中的逆
向归纳解,并对鲁宾斯坦(Ru-binstein,1982)的讨价还价模型推导
出相似的结果,尽管后面的博弈有潜在无穷多步的行动,因此并不属于
以上类型的博弈。
第2.2节丰富了前一节分析的博弈类型:首先参与者1和2同时行
动,接着参与者3和4观察到1和2选择的行动,然后参与者3和4同时行
动,博弈结束。这里的同时行动意味着此类博弈有不完美信息(这一点
在第2.4节将进一步给出解释)。我们定义这种博弈的子博弈精炼解
(subgame-perfect outcome),它是逆向归纳方法在此类博弈中的自然延伸。在应用举例中,将解出戴蒙德和迪布维格(DiamondDybvig,1983)的银行挤提模型、拉齐尔和罗森(LazearRosen,1981)的锦标
赛模型的结果。
第2.3节研究重复博弈(repeated game),它指一组固定的参与者
多次重复进行同一给定的博弈,并且在下次博弈开始前,参与者都可以
观察到前面所有博弈的结果。这里分析的中心问题是(可信的)威胁和
对以后行为所做的承诺可以影响到当前的行为。我们给出重复博弈中子
博弈精炼纳什均衡的定义,并将其与第2.1节中的逆向归纳解和第2.2节
中子博弈精炼解联系起来,还将给出无限次重复博弈中的无名氏定理
(Folk Theorem)及其证明。在应用举例中,将分析弗里德曼(1971)
的古诺双头垄断企业相互串谋模型,夏皮罗和施蒂格利茨
(ShapiroStiglitz,1984)的货币政策模型。
第2.4节我们介绍分析一般的完全信息动态博弈所需要的工具,不
再区分信息是否是完美的。我们定义博弈的扩展式表述并将其与第一章
介绍的标准式表述相互联系起来,同时定义一般博弈中的子博弈精炼纳
什均衡。本节和本章的重点都在于,一个完全信息动态博弈可能会有多
个纳什均衡,但其中一些均衡也许包含了不可置信的威胁或承诺,子博
弈精炼纳什均衡则是通过了可信性检验的均衡。2.1 完全且完美信息动态博弈
2.1.A 理论:逆向归纳法
手雷博弈属于下面简单类型的完全且完美信息动态博弈:
1.参与者1从可行集A1 中选择一个行动a1 ,2.参与者2观察到之后从可行集A2 中选择一个行动a2 ,3.两人的收益分别为u1 (a1 ,a2 )和u2 (a1 ,a2 )。
许多经济问题都符合这种博弈, [2] 其中的两个例子(后面将进行
详细讨论)是斯塔克尔贝里的双头垄断模型和里昂惕夫的有工会企业工
资和就业模型。其他的经济问题可通过允许更长的行动序列建立模型:
或者加入更多的参与者,或者允许参与者有多步行动(在第2.1.1节讨
论的鲁宾斯坦的讨价还价模型就是后者的一个例子)。完全且完美信息
动态博弈的主要特点是:(i)行动是顺序发生的,(ii)下一步行动
选择之前,所有以前的行动都可被观察到,及(iii)每一可能的行动
组合下参与者的收益都是共同知识。
我们可以通过逆向归纳法求解此类博弈问题,方法如下。当在博弈
的第二阶段参与者2行动时,由于其前参与者1已选择行动a1 ,他面临
的决策问题可用下式表示:
假定对A1 中的每一个a1 ,参与者2的最优化问题只有惟一解,用R2
(a1 )表示,这就是参与者2对参与者1的行动的反应(或最优反
应)。由于参与者1能够和参与者2一样解出2的问题,参与者1可以预测
到参与者2对1每一个可能的行动a1 所作出的反应,这样1在第一阶段要
解决的问题可归结为:
假定参与者1的这一最优化问题同样有惟一解,表示为a1 ,我们称(a1 ,R2 (a1 ))是这一博弈的逆向归纳解。逆向归纳解不含有
不可置信的威胁:参与者1预测参与者2将对1可能选择的任何行动a1 做
出最优反应,选择行动R2 (a1 );这一预测排除了参与者2不可置信
的威胁,即参与者2将在第二阶段到来时做出不符合自身利益的反应。
在第一章中我们用标准式表述研究完全信息静态博弈,并作为这种
博弈的解的概念,重点讨论了纳什均衡。不过在本节对动态博弈的讨论
中,我们既不涉及标准式表述,亦不提及纳什均衡;分别代之以(1)
—(3)中对博弈的文字描述和已定义的逆向归纳解。在第2.4.A节中,为了使概念更精确,我们将定义子博弈精炼纳什均衡为:只有不包含不
可置信的威胁的纳什均衡才是子博弈精炼纳什均衡,我们会发现一个属
于(1)—(3)所界定的博弈可能会有多个纳什均衡,但惟一的子博弈
精炼纳什均衡就是与逆向归纳解相对应的均衡。正如我们在第1.1.C节
中所观察到的,有些博弈会有多个纳什均衡,但有一个均衡明显占优,成为博弈的解。
本节的最后,我们探讨逆向归纳法背后的理性假定。考虑下面的三
步博弈,其中参与者1有两次行动:
1.参与者1选择L或R,其中L使博弈结束,参与者1的收益为2,参与
者2的收益为0;
2.参与者2观测参与者1的选择,如果1选择R,则2选择L'或R',其
中L'使博弈结束,两人的收益均为1;
3.参与者1观测2的选择(并且回忆在第一阶段时自己的选择)。如
果前两阶段的选择分别为R和R',则1可选择L或R,每一选择都将结束
博弈,L时参与者1的收益为3,2的收益为0,如选R,两人的收益分别
为0和2。
上面的语言描述可以用如下简明的博弈树表示(这是博弈的扩展式
表述,我们将在第2.4节进行更一般的讨论)。博弈树上每一枝的末端
都有两个收益值,上面代表参与者1的收益,下面代表参与者2的收益。为计算出这一博弈的逆向归纳解,我们从第三阶段(即参与者1的
第二次行动)开始。这里参与者1面临的选择是:L可得收益3,R可得
收益0,于是L是最优的。那么在第二阶段,参与者2预测到一旦博弈进
入到第三阶段,则参与者1会选择,这会使2的收益为0,从而参与者2在
第二阶段的选择为:L'可得收益1,R可得收益0,于是L'是最优的。这
样,在第一阶段,参与者1预测到如果博弈进入到第二阶段,2将选择
L',使参与者1的收益为1,从而参与者1在第一阶段的选择是:L收益为
2,R收益为1,于是L是最优的。
上述过程求出博弈的逆向归纳解为,参与者1在第一阶段选择L,从
而使博弈结束。即使逆向归纳预测博弈将在第一阶段结束,但论证过程
的重要部分却是考虑如果博弈不在第一阶段结束时可能发生的情况。比
如在第二阶段,当参与者2预测如果博弈进入第三阶段,则1会选择L,这时2假定1是理性的。由于只有在1偏离了博弈的逆向归纳解,才能轮
得到2选择行动,而这时2对1的理性假定便看似是矛盾的,即如果1在第
一阶段选择了那么第二阶段2就不能再假定1是理性的了。但这种理解是
不对的:如果1在第一阶段选择了R,则两个参与者都是理性的就不可能
是共同知识,但这时1仍有理由在第一阶段选择R,却不与2对1的理性假
定相矛盾。 [3] 一种可能是“参与者1是理性的”是共同知识,但“参与
者2是理性的”却不是共同知识:如果1认为2可能不是理性的,则1就可
能在第一阶段选择R,希望2在第二阶段选择R',从而给1以机会在第三
阶段选择L。另一种可能是“参与者2是理性的”是共同知识,但“参
与者1是理性的”却不是共同知识:如果1是理性的,但推测2可能认为1
是非理性的,这时1也可能在第一阶段选择R,希望2会认为1是非理性的
而在第二阶段选择R',期望1能在第三阶段选择R。逆向归纳中关于1在
第一阶段选择R的假定可通过上面的情况得到解释。不过在有些博弈
中,对1选择了R的更为合理的假定是1确实是非理性的。在这样的博弈
中,逆向归纳在预测博弈进行方面就会失去其大部分作用,正像在博弈
论不能提供惟一解并不能达成协议的博弈中,纳什均衡也对预测博弈的
结果所助无几。
2.1.B 斯塔克尔贝里双头垄断模型
斯塔克尔贝里(1934)提出一个双头垄断的动态模型,其中一个支
配企业(领导者)首先行动,然后从属企业(追随者)行动。比如在美
国汽车产业发展史中的某些阶段,通用汽车就扮演过这种领导者的角色
(这一例子把模型直接扩展到允许不止一个追随企业,如福特、克莱斯
勒等等)。根据斯塔克尔贝里的假定,模型中的企业选择其产量,这一
点和古诺模型是一致的(只不过古诺模型中企业是同时行动的,不同于
这里的序贯行动)。至于在类似于贝特兰德模型中企业(同时地)选择
价格的假定下,如何构建相似的序贯行动模型,我们留作习题请读者自
己练习。
博弈的时间顺序如下:(1)企业1选择产量q≥0;(2)企业2观测
到q1 ,然后选择产量q2 ≥0;(3)企业i的收益由下面的利润函数给
出这里p(Q)=a-Q,是市场上的总产品Q=q1 +q2 时的市场出清价
格,c是生产的边际成本,为一常数(固定成本为0)。
为解出这一博弈的逆向归纳解,我们首先计算企业2对企业1任意产
量的最优反应,R2 (q1 )应满足
由上式可得
已知q1
出的R2 (q1 )和上式完全一致,两者的不同之处在于这里的R2 (q1)
是企业2对企业1已观测到的产量的真实反应,而在古诺的分析中,R2
(q1 )是企业2对假定的企业1的产量的最优反应,且企业1的产量选择
是和企业2同时作出的。
由于企业1也能够像企业2一样解出企业2的最优反应,企业1就可以
预测到他如选择q1 ,企业2将根据R2 (q1 )选择的产量。那么,在博
弈的第一阶段,企业1的问题就可表示为
由上式可得
及
这就是斯塔克尔贝里双头垄断博弈的逆向归纳解。 [4]
回顾在第1章古诺博弈的纳什均衡中,每一企业的产量为(a-
c)3,也就是说,斯塔克尔贝里博弈中逆向归纳解的总产量3(a-c)4,比古诺博弈中纳什均衡的总产量2(a-c)3要高,从而斯塔克
尔贝里博弈相应的市场出清价格就比较低。不过在斯塔克尔贝里博弈
中,企业1完全可以选择古诺均衡产量(a-c)3,这时企业2的最优反
应同样是古诺均衡的产量,也就是说在斯塔克尔贝里博弈中,企业1完
全可以使利润水平达到古诺均衡的水平,而却选择了其他产量,那么企
业1在斯塔克尔贝里博弈中的利润一定高于其在古诺博弈中的利润。但
斯塔克尔贝里博弈中的市场出清价格降低了,从而总利润水平也会下
降,那么和古诺博弈的结果相比,在斯塔克尔贝里博弈中,企业1利润
的增加必定意味着企业2福利的恶化。
和古诺博弈相比,斯塔克尔贝里博弈中企业2利润水平的降低,揭
示了单人决策问题和多人决策问题的一个重要不同之处。在单人决策理
论中,占有更多的信息决不会对决策制定者带来不利,然而在博弈论
中,了解更多的信息(或更为精确地说,是让其他参加者知道一个人掌
握更多的信息)却可以让一个参与者受损。
在斯塔克尔贝里博弈中,存在问题的信息是企业的产量:企业2知
道q1 ,并且(重要的是)企业1知道企业2知道q1 。为看清楚这一信息
的影响,我们把上面序贯行动的博弈稍作修改,假设企业1先选择q1 ,之后企业2选择q2 、但事前并没有观测到q1 。如果企业2确信企业1选
择了它的斯塔克尔贝里产量 ,则企业2的最优反应仍是。但是,如果企业1预测到企业2将持有这一推断
并选择这一产量,企业1就会倾向于它对(a-c)4的最优反应——即
3(a-c)8——而不愿去选择斯塔克尔贝里产量(a-c)2,那么企业2
就不会相信企业1选择了斯塔克尔贝里产量。从而这一修改过的序贯行
动博弈的惟一纳什均衡,对两个企业都是选择产量(a-c)3——这正
是古诺博弈中的纳什均衡,其中企业是同时行动的。 [5] 亦即,使企业1
知道,企业2知道q1 给企业2带来了损失。
2.1.C 有工会企业的工资和就业
在里昂惕夫(1946)模型中,讨论了一个企业和一个垄断的工会组
织(即作为企业劳动力惟一供给者的工会组织)的相互关系:工会对工
资水平说一不二,但企业却可以自主决定就业人数(在更符合现实情况
的模型中,企业和工会间就工资水平讨价还价,但企业仍自主决定就业,得到的定性结果与本模型相似)。工会的效用函数为U(w,L),其中w为工会向企业开出的工资水平,L为就业人数。假定U(w,L)是w
和L的增函数。企业的利润函数为π(w,L)=R(L)-wL,其中R(L)
为企业雇佣L名工人可以取得的收入(在最优的生产和产品市场决策
下),假定R(L)是增函数,并且为凹函数(concave)。
假定博弈的时序为:(1)工会给出需要的工资水平w;(2)企业
观测到(并接受)w,随后选择雇佣人数L;(3)收益分别为U(w,L)
和π(w,L)。即使没有假定U(w,L)和R(L)的具体的表达式,从
而无法明确解出该博弈的逆向归纳解,但我们仍可以就解的主要特征进
行讨论。
首先,对工会在第一阶段任意一个工资水平w,我们能够分析在第
二阶段企业最优反应L (w)的特征。给定w,企业选择L (w)满足
下式:
一阶条件为
R'(L)-w=0.
为保证一阶条件R'(L)-w=0有解,假定R'(0)=∞,且R'(∞)
=0,如图2.1.1所示。图2.1.1
图2.1.2把L (w)表示为w的函数(但坐标轴经过旋转,以便于和
以后的数据相比较),并表示出它和企业每条等利润线交于其最高点。 [6] 若令L保持不变,w降低时企业的利润就会提高,于是较低的等利润
曲线代表了较高的利润水平。图2.1.3描述了工会的无差异曲线,若令L
不变,当w提高时工会的福利就会增加,于是较高的无差异曲线代表了
工会较高的效用水平。图2.1.2图2.1.3
下面我们分析工会在第一阶段的问题,由于工会和企业同样可以解
出企业在第二阶段的问题,工会就可预测到如果它要求的工资水平为
w1,企业最优反应的就业人数将会是L (w1 )。那么,工会在第一阶
段的问题可以表示为:
表现在图2.1.3的无差异曲线上就是,工会希望选择一个工资水平
w,由此得到的结果(w,L (w))处于可能达到的最高的无差异线
上。这一最优化问题的解为w ,这样一个工资要求将使得工会通过
(w ,L (w ))的无差异曲线与L (w)相切于该点,如图2.1.4
所示。从而,(W ,L (w ))就是这一工资与就业博弈的逆向归纳
解。图2.1.4
更进一步我们还可以看出,(w ,L (w ))是低效率的,在图
2.1.5中,如果w和L处于图中阴影部分以内,企业和工会的效用水平都
会提高。这种低效率对实践中企业对雇佣工人数量保持的绝对控制权提
出了质疑。(允许工人和企业就工资相互讨价还价,但企业仍对雇佣工
人数量绝对控制,也会得到相似的低效率解)。埃斯皮诺萨和里
(EspinosaRhee,1989)基于如下事实为这一质疑提供了一个解释:
企业和工会之间经常会进行定期或不定期的重复谈判(在美国经常是每
三年一次),在这样的重复博弈中,可能会存在一个均衡,使得工会的
选择w和企业的选择L都在图2.1.5所示的阴影部分以内,即使在每一次
性谈判中,这样的w和L都不是逆向归纳解。参见第2.3节中关于重复博
弈的讨论,以及习题2.16对埃斯皮诺萨和里模型的分析。
2.1.D 序贯谈判
我们首先分析一个三阶谈判模型,它属于第2.1.A节分析过的博弈
模型,然后我们讨论鲁宾斯坦(1982)模型,其中博弈的(潜在)阶段数是无限的。在所有两个模型中,都可马上得到谈判结果——不可能发
生持久的谈判(如罢工)。与此相反,在索贝尔和高桥
(SobelTakahashi1983)关于非对称信息下的序贯谈判模型中,罢工
的发生以正概率存在于惟一的(精炼贝叶斯)均衡之中,参见第4.3.B
节。
图2.1.5
参与人1和2就一美元的分配进行谈判。他们轮流提出方案:首先参
与人1提出一个分配建议,参与人2可以接受或拒绝;如果参与人2拒
绝,就由参与人2提出分配建议,参与人1选择接受或拒绝;如此一直进
行下去。一个条件一旦被拒绝,它就不再有任何约束力,并和博弈下面
的进行不再相关。每一个条件都代表一个阶段,参与人都没有足够的耐
心:他们对后面阶段得到的收益进行贴现,每一阶段的贴现因子为δ,这里0<δ<1。 [7]
下面是对三阶段谈判博弈时序的更为详细的描述:
(1a)在第一阶段开始时,参与人1建议他分走1美元的s1 ,留给
参与人2的份额为l-s1 ;
(1b)参与人2或者接受这一条件(这种情况下,博弈结束,参与人1的收益为s1 ,参与人2的收益为1-s1 ,都可立刻拿到),或者拒绝
这一条件(这种情况下,博弈将继续进行,进入第二阶段);
(2a)在第二阶段的开始,参与人2提议参与人1分得1美元的s2 ,留给参与人2的份额为1-s1 (请注意在阶段t,st 总是表示分给参与人
1的,而不论是谁先提出的条件);
(2b)参与人1或者接受条件(这种情况下,博弈结束,参与人1的
收益s2 和参与人2的收益1-s2 都可立即拿到),或者拒绝这一条件
(这种情况下,博弈继续进行,进入第三阶段);
(3)在第三阶段的开始,参与人1得到1美元的s,参与人2得到1-
s,这里0
在这样的三阶段博弈中,第三阶段的解决方案(s,1-s)是外生给
定的。在我们后面将考虑的无限期模型中,第三阶段的收益s将表示如
果博弈进行到第三阶段(即如果前面两个提议都被拒绝)的话,参与人
1在其后进行的博弈中可得到的收益。
为解出此三阶段博弈的逆向归纳解,首先需要计算如果博弈进行到
第二阶段,参与人2可能提出的最优条件。参与人1拒绝参与人2在这一
阶段的条件s2 ,可以在第三阶段得到s,但下一阶段的s在当期的价值
只有δs。那么,当且仅当s2 ≥·s,参与人1才会接受s2 (我们假定
当接受和拒绝并无差异时,参与人总是选择接受条件)。从而参与人2
在第二阶段的决策问题就可归于在本阶段收入1-δ·s(通过向参与人1
提出条件,给他s2 =δ·s)和下阶段收入1-s(通过向参与人1提出条
件,给他任意的s2<δ·s)之间作出选择。后一选择的贴现值为
δ·(1-s),小于前一选择可得的1-δ·s,于是参与人2在第二阶段
可以提出的最优条件是s2 =δ·s。也就是说,如果博弈进行到第二阶
段,参与人2将提出条件 ,参与人1选择接受条件。
由于参与人1可以和参与人2同样地解出参与人2在第二阶段的决策
问题,参与人1也就知道参与人2通过拒绝参与人1的条件,在第二阶段
可以得到 ,但下一阶段得到的 在本阶段的价值只有。那么,当且仅当 或
时,参与人2才会接受1-s1 。从而参与人1在第一阶段的决策问题就可
归于在本阶段收入 (通过向参与人2提出条件 )和下阶段收入 (通过向参与人2提出出任意的)之间作出选择。后一选择的贴现值为
,小于前一选择可得的 ,于是参与
人1在第一阶段提出的最优条件是。这样,在此三阶段博弈的逆
向归纳解中,参与人1向参与人2提出分配方案 ,后者接受
该方案。
现在考虑无限期的情况。博弈时序和前面的描述完全一致,只是第
(3)阶段给出的外生解决方案被其后的无限步讨价还价(3a)、(3b)、(4a)、(4b)等等所代替:奇数步由参与人1出条件,偶数
步由参与人2出条件,直至一方接受条件,讨价还价结束。和前面分析
过的所有应用一样,我们希望能够从后向前推出这一无限步博弈的逆向
归纳解。但是,由于博弈可能会无限地进行下去,因此并不存在我们借
以入手分析的最后一步行动。幸而下面的发现(首先由谢克德和萨顿
(ShakedSutton,1984)所运用),使我们可以把无限博弈截开,并
应用对有限博弈分析的逻辑进行分析:从第三阶段开始的博弈(如果能
进行到这一阶段)与(从第一阶段开始的)整个过程的博弈是相同的
——两种情况下,都是由参与人1首先提出条件,其后两个参与人轮流
出价,直至有一方接受条件谈判结束。
由于尚未正式定义此类无限博弈的逆向归纳解,我们的讨论也将是
非正式的(但也可以进行正式讨论)。假设完整过程的博弈存在逆向归
纳解,此时参与人1和2分别得到s和1-s。我们可以把这个结果用于从第
三阶段开始的博弈,如果博弈进行到第三阶段的话,然后逆向推至第一
阶段(过程与三阶段博弈中相同),可计算出整个博弈的新的逆向归纳
解。在这一新的逆向归纳解中,参与人1将在第一阶段提出解决方案
(f(s),l-f(s)),参与人2会接受这一方案。这里的f(s)=1-
δ(1-δ·s),就是上面讨论过的,在第三阶段解决方案(s,1-s)
外生给定条件下,参与人1第一阶段得到的份额。
令sH 为参与人1在全过程博弈中可能得到的逆向归纳解下的最高收
益。设想sH 为参与人1第三阶段的收益,则如前所述,这将产生一个新
的逆向归纳解,其中参与人1第一阶段的收益为f(sH )。由于f(s)
=l-δ+δ2 s 是s的增函数,sH 是第三阶段可能达到的最高收益,f(sH)也就是第一阶段可能达到的最高收益。但同时sH 又是第一阶段可能达到的最高收益,于是有f(sH )=sH 。相似的论证可证明f(sL )=sL
,这里的sL 为参与人1在全过程博弈中可能得到的逆向归纳解下的最低
收益。满足f(s)=s的惟一的s值为1(1+δ),我们用S 表示。那么
sH =sL =s ,于是整个过程博弈有惟一的逆向归纳解:在第一阶段,参
与人1向参与人2提出分配方案(s =1(1+δ),l-s =δ
(l+δ)),后者接受该方案。2.2 完全非完美信息两阶段博弈
2.2.A 理论:子博弈精炼
现在我们对前一节所讨论的博弈类型加以丰富。和在完全且完美信
息动态博弈中相同,我们继续假定博弈的进行分为一系列的阶段,下一
阶段开始前参与者可观察到前面所有阶段的行动。与上节分析的不同之
处在于,本节我们每一阶段中存在着同时行动。在第2.4节更进一步的
分析中我们将看到,这种阶段内的同时行动意味着本节分析的博弈包含
了不完美信息。然而,此类博弈和前一节所讨论的博弈又有着很多共同
特性。
我们将分析以下类型的简单博弈,并(多么缺乏创意地)称其为完
全非完美信息两阶段博弈:
1.参与者1和2同时从各自的可行集A1 和A2 中选择行动a1 和a2 ,2.参与者3和4观察到第一阶段的结果,(a1 ,a2 ),然后同时从
各自的可行集A3 和A4 中选择行动a3 和a4 ,3.收益为ui (a1 ,a2 ,a3 ,a4 ),i=l,2,3,4。
许多经济学问题都符合以上的特点, [8] 其中三个例子(后面进行
详细讨论)包括对银行的挤提、关税和国际市场的不完全竞争以及工作
竞赛(如一个企业中,几个副总裁为下一任总裁而竞争)。还有很多经
济问题可通过把以上条件稍加改动而建立模型,比如增加参与者人数或
者允许同一参与者(在一个以上的阶段)多次选择行动。也可以允许少
于四个的参与者:在一些应用中,参与者3和4就是参与者1和2;还有的
则不存在参与者2或参与者4。
我们解决此类问题使用的方法,仍沿用了逆向归纳的思路,但这里
从博弈的最后阶段逆向推导的第一步就包含了求解一个真正的博弈(给
定第一阶段结果时,参与者3和4在第二阶段同时行动的博弈),而不再
是前一节求解单人最优化的决策问题。为使问题简化,本节中我们假设
对第一阶段博弈每一个可能结果(a1 ,a2 ),其后(参与者3和4之间
的)第二阶段博弈有惟一的纳什均衡,表示为。在第2.3.A节(关于重复博弈)我们考虑放松这一假定时的应用。
如果参与人1和2预测到参与人3和4在第二阶段的行动将由
给出,则参与人1和2在第一阶段的问题就
可用以下的同时行动博弈表示:
1.参与人1和2同时从各自的可行集A1 和A2 中选择行动a1 和a2 ;
2.收益情况为 ,i=l,2;
假定 为以上同时行动博弈惟一的纳什均衡,我们称
为这一两阶段博弈的子博弈
精炼解。此解与完全且完美博弈中的逆向归纳解在性质上是一致的,并
且与后者有着类似的优点和不足。如果参与者3和4威胁在后面的第二阶
段博弈中,他们将不选择纳什均衡下的行动,参与人1和2是不会相信
的,因为当博弈确实进行到第二阶段时,参与人3和4中至少有一个人不
愿把威胁变为现实(恰好是因为它不是第二阶段博弈的纳什均衡)。另
一方面,假设参与者1就是参与者3,并且参与者1在第一阶段并不选择
a1 ,参与者4就会重新考虑参与者3(即参与者1)在第二阶段将会选
择a3 (a1 ,a2 )的假定。
2.2.B 对银行的挤提
两个投资者每人存入银行一笔存款D,银行已将这些存款投入一个
长期项目。如果在该项目到期前银行被迫对投资者变现,共可收回2r,这里D>r>D2。不过,如果银行允许投资项目到期,则项目共可取得
2R,这里R>D。
有两个日期,投资者可以从银行提款:日期1在银行的投资项目到
期之前,日期2则在到期之后。为使分析简化,假设不存在贴现。如果
两个投资者都在日期1提款,则每人可得到r,博弈结束。如果只有一个
投资者在日期1提款,他可得到D,另一人得到2r-D,博弈结束。如果两
人都不在日期1提款,则项目结束后投资者在日期2进行提款决策。如果
两个投资者都在日期2提款,则每人得到R,博弈结束。如果只有一个投
资者在日期2提款,则他得到2R-D,另一人得到D,博弈结束。最后,如
果在日期2两个投资者都不提款,则银行向每个投资者返还R,博弈结
束。我们将在第2.4节讨论此类博弈的正式表述方法,这里只是一般性
地分析这一问题的解决思路。两个投资者在日期1和日期2的收益情况
(作为他们在那时提款决策的函数),可以用下面的两个标准式博弈表
示。注意这里日期1的标准式博弈是不规范的:如果在日期1两个投资者
都选择不提款,则没有与之对应的收益,这时投资者要继续进行日期2
的博弈。
日期1
日期2
我们从后往前分析此博弈。先考虑日期2的标准式博弈。由于R>
D(并且由此可得2R-D>R),“提款”严格优于“不提款”,那么这一
博弈有惟一的纳什均衡:两个投资者都将提款,最终收益为(R,R)。
由于不存在贴现,我们可以直接用这一收益替入日期1的标准式博弈双
方都不提款时的情况,如图2.2.1所示。由于r
均衡:(1)两个投资者都提款,最终收益情况为(r,r);(2)两个
投资者都不提款,最终收益为(R,R)。从而,最初的两阶段银行挤提博弈就有两个子博弈精炼解(因此也不完全符合第2.2.A节所定义的博
弈类型):(1)两个投资者都在日期1提款,两人的收益分别为(r,r);(2)两个投资者都不在日期1提款,而在日期2提款,两人在日期
2的收益分别为(R,R)。
图2.2.1
前一种结果可以解释为对银行的一次挤提。如果投资者1相信投资
者2将在日期1提款,则投资者1的最优反应也是去提款,即使他们等到
日期2再去提款的话两人的福利都会提高。这里的银行挤提博弈在一个
很重要的方面不同于第1章中讨论的囚徒困境:虽然两个博弈都存在一
个对整个社会是低效率的纳什均衡;但在囚徒困境中这一均衡是惟一的
(并且是参与者的严格占优战略),而在这里还同时存在另一个有效率
的均衡。从而,这一模型并不能预测何时会发生对银行的挤提,但的确
显示出挤提会作为一个均衡结果而出现。参见戴蒙德和迪布维格
(1983)内容更丰富的模型。
2.2.C 关税和国际市场的不完全竞争
下面我们讨论国际经济学中的一个应用。考虑两个完全相同的国
家。分别用i=1,2表示。每个国家有一个政府负责确定关税税率,一个
企业制造产品供给本国的消费者及出口,和一群消费者在国内市场购买
本国企业或外国企业生产的产品。如果(国家i的)市场上总产量为
Qi,则市场出清价格为pi (Qi )=a-Qi ,国家i中的企业(后面称为企
业i)为国内市场生产hi ,并出口ei ,则Q=hi +ej 。企业的边际成本为常数c,并且没有固定成本,从而,企业i生产的总成本为Cj (hj +ej)=c(hi +ej ),另外,产品出口时企业还要承担关税成本(费
用):如果政府j制定的关税税率为tj ,企业i向国家j出口ei 必须支
付关税tj ei 给政府j。
博弈的时间顺序如下:第一,政府同时选择关税税率t1 和t2 ;第
二,企业观察到关税税率,并同时选择其提供国内消费和出口的产量
(h1 ,e1 )和(h2 ,e2 );第三,企业i的收益为其利润额,政府i
的收益则为本国总的福利,其中国家i的总福利是国家i的消费者享受的
消费者剩余、 [9] 企业i赚取的利润以及政府i从企业j收取的关税收入之
和:
假设政府已选定的税率分别为t1 和t2 ,如果 为其
余部分企业1和企业2的(两市场)博弈的纳什均衡,对每一个企业i,必须满足
由于 可以表示为企业i在市场i的利润与在市场
j的利润之和,而企业i在市场i的利润只是hj 和 的函数,在市场j的
利润又只是ei, 和tj 的函数,企业i在两市场的最优化问题就可以
简单地拆分为一对问题,在每个市场分别求解: 必须满足:
且 必须满足
假设 ,可得同时假设 ,可得
(从我们求得的结果来看,和上面两个假设是相符的)对每一个
i=1,2,都必须同时满足(2.2.1)和(2.2.2)两个最优反应函数,从
而我们对四个未知数 就得到了四个方程式。但由于这四
个方程可分为两组,每两个方程包含两个未知数,求解十分容易。其解
为:
比较第1.2.A节的古诺博弈中,两个企业选择的均衡产出都是(a-
c)3,但这一结果是基于对称的边际成本而推出的。而(2.2.3)式的
均衡结果与之不同的是,政府对关税的选择使企业的边际成本不再对称
(正如习题1.6的情况),例如在市场企业i的边际成本是c,但企业j的
边际成本则是c+ti 。由于企业j的成本较高,它意愿的产出也相对较
低。但如果企业j要降低产出,市场出清价格又会相应提高,于是企业i
又倾向于提高产出,这种情况下,企业j的产量就又会降低。结果就是
在均衡条件下, 随ti 的提高而上升, 随ti 的提高而(以更快的
速度)下降。这一点可以从(2.2.3)式的结果中明白看出。
在解出了政府选定关税时,其后第二阶段两企业博弈的结果之后,我们可以把第一阶段政府间的互动决策表示为以下的同时行动博弈:首
先,政府同时选择关税税率t1 和t2 ;第二,政府i的收益为
,这里 和 是(2.2.3)式
所表示的ti 和tj 的函数。现在我们求解这一政府间博弈的纳什均衡。
为简化使用的表示符号,我们把 决定于 决定于tj 隐于式
中:令 表示 ,即当政府i选择关税
ti ,政府j选择关税tj ,企业i和j按(2.2.3)式中的纳什均衡选择行
动时政府i的收益。如果 是这一政府间博弈的纳什均衡,则对
每一个i, 必须满足
但 又等于于是
这一结果对每一个i都成立,并不依赖于 。也就是说,在本模型
中,选择(a-c)3的关税税率对每个政府都是占优战略(在其他模型
中,比如当边际成本递增时,政府的均衡战略就不是占优战略)。把
代入(2.2.3)式可得
这就得到企业第二阶段所选择的产出,至此,我们已求得这一关税
博弈的子博弈精炼解为:
在子博弈精炼解中,每一市场上的总产量为5(a-c)9。进一步分
析我们会发现,如果政府选择的关税税率为0,则每一市场上的总产量
将为2(a-c)3,等于古诺模型的结果。从而,市场i的消费者剩余
(上注中已说明,它简单地等于市场i的总产量平方的一半),在政府
选择其占优战略时,比选择0关税税率时要低,事实上,为0的关税税率
是社会最优选择,因为t1 =t2 =0是下式的解
于是,政府就有动因签订一个相互承诺0关税税率的协定(即自由
贸易)。(如果负关税税率,即补贴,是可行的,社会最优化的条件是
政府选择t1 =t2 =-(a-c),这使得国内企业为本国消费者提供的产出
为0,并向另一国家出口完全竞争条件下的产量)这样,由于企业i和j
在第二阶段将按(2.2.3)给出的纳什均衡结果行动,政府在第一阶段
的互动决策就成为囚徒困境式的问题:惟一的纳什均衡是其占优战略,但对整个社会却是低效率的。
2.2.D 工作竞赛考虑为同一老板工作的两个工人,工人i(其中i等于1或2)生产的
产出yi =ei +εi ,其中ei 是努力程度,εi 是随机扰动项。生产的程
序如下:第一,两个工人同时选择非负的努力水平ei ≥0;第二,随机
扰动项ε1 和ε2 相互独立,并服从期望值为0、密度函数为f(ε)的
概率分布;第三,工人的产出可以观测,但各自选择的努力水平无法观
测,从而工人的工资可以决定于各人的产出,却无法(直接)取决于其
努力水平。
假设老板为激励工人努力工作,而在他们中间开展工作竞赛,参见
拉齐尔和罗森(1981)首先建立的分析模型 [10] 。工作竞赛的优胜者
(即产出水平较高的工人)获得的工资为wH ;失败者的工资为wL 。工
人获得工资水平w并付出努力程度e时的收益为u(w,e)=w-g(e),其
中g(e)表示努力工作带来的负效用,是递增的凸函数(即g'(e)>0
且g(e)>0)。老板的收益为y1 +y2 -wH -wL 。
现在我们套用对第2.2.A节博弈类型的讨论思路来分析这一应用。
老板为参与者1,他的行动a1 是选择工作竞赛中的工资水平wH 和wL ,这里不存在参与者2。两个工人是参与者3和4,他们观测第一阶段选定
的工资水平,然后同时选择行动a3 和a4 ,具体地说就是选定的努力程
度e1 和e2 。(后面我们将考虑另一种可能性,就是对老板选定的工资
水平,工人们不愿意参与工作竞赛,却转而寻找另外的工作机会)最
后,参与者各自的收益如前面所给出。由于产出(并由此而使工资)不
只是参与者行动的函数,而且同时还受随机扰动因素ε1 和ε2 的影
响,我们用参与者的期望收益进行分析。
假定老板已选定了工资水平wH 和wL ,如果一对努力水平
是第二阶段两工人博弈的纳什均衡,则对每个i, 必须使工人的期
望工资减去努力带来的负效用后的净收益最大,亦即 必须满足: [11]
其中yi (ei )=ei +εi 。(2.2.4)的一阶条件为也就是说,工人i选择努力程度ei ,从而使得额外努力的边际负效
用g'(ei ),等于增加努力的边际收益,后者又等于对优胜者的奖励
工资切wH -wL ,乘以因努力程度提高而使获胜概率的增加。
根据贝叶斯法则 [12]
于是,一阶条件(2.2.5)可化为
在对称的纳什均衡(即 ),我们有
由于g(e)是凸函数,优胜获得的奖励越高(即wH -wL 的值越
大),就会激发更大的努力,这和我们的直觉是一致的。另一方面,在
同样的奖励水平下,对产出的随机扰动因素越大,越不值得努力工作,因为这时工作竞赛的最终结果在很大程度上是决定于运气,而非努力程
度。例如,当ε服从方差为σ2 的正态分布时,则有
它随σ的增加而下降,也就是说e 的确随σ的增加而降低。
下面我们从后往前分析博弈的第一阶段。假定工人们同意参加工作
竞赛(而不是去另谋高就),他们对给定的wH 和wL 的反应,将会是
(2.2.6)描述的对称的纳什均衡战略。(从而我们忽略掉存在不对称
均衡的可能性,以及工人的努力程度由角解e1 =e2 =0而不是由一阶条
件(2.2.5)给出的可能性)同时假定工人可寻求其他就业机会,得到
的效用为Ua 。因为在对称的纳什均衡中每个工人在竞赛中获得优胜的
概率为12(即)Prob{yi (e )>yi (e )}=12),如果老板要使工人有动力参加工作竞赛,则他必须选择满足下式的工资水平
假设Ua 足够低,以致于老板愿意激励工人参加竞赛,则他会在
(2.2.7)的约束条件下,选择使自己期望收益2e -wH -wL 最大的工资
水平。由于在最优条件下,(2.2.7)中的等号成立:
wL =2Ua +2g(e )-wH . (2.2.8)
则期望利润就成为2e -2Ua -2g(e ),于是老板要考虑的问题就
是使e -g(e )最大化,这时他选择的工资水平应使得与之相应的e
满足这一条件。从而最优选择下的努力程度满足一阶条件g'(e )
=1,将其代入(2.2.6)则意味着最优激励wH -wL 满足
和(2.2.8)一起,可解得wH 和wL 的值。2.3 重复博弈
本节我们分析在参与者之间长期重复的相互往来中,关于将来行动
的威胁或承诺能否影响到当前的行动。大部分直观的结论是由两阶段的
例子给出的,也有一些观点需要讨论无限次的情况。同时,我们还将定
义重复博弈中子博弈精炼纳什均衡的概念,这一定义在重复博弈的条件
下表述较容易理解,而在第2.4.B节分析一般的完全信息动态博弈中则
要复杂一些。我们在本节先作一简要介绍,以方便后面的展开。
2.3.A 理论:两阶段重复博弈
考虑图2.3.1给出的囚徒困境的标准式,假设两个参与者要把这样
一个同时行动博弈重复进行两次,且在第二次博弈开始之前可观测第一
次进行的结果,并假设整个过程博弈的收益等于两阶段各自收益的简单
相加(即不考虑贴现因素),我们称这一重复进行的博弈为两阶段囚徒
困境。它属于第2.2.A节分析过的博弈类型,这里参与者3、4与参与者
1、2是相同的,行动空间A3 和A4 也与A1 、A2 相同,并且总收益Ui
(a1 ,a2 ,a3 ,a4 )等于第一阶段结果(a1 ,a2 )的收益与第二
阶段结果(a3 ,a4 )的收益简单相加。而且,两阶段囚徒困境满足我
们在第2.2.A节所作的假定:对每一个第一阶段的可行结果(a1 ,a2),其余部分在参与者3和4之间进行的博弈都存在惟一的纳什均衡,表
示为(a3 (a1 ,a2 ),a4 (a1 ,a2 ))。事实上,两阶段囚徒困
境满足比上述假定更为严格的条件:在第2.2.A节中,我们允许其余第
二阶段博弈的纳什均衡依赖于第一阶段的结果——从而我们表示为(a3
(a1 ,a2 ),a4 (a1 ,a2 )),而不是简单的(a3 ,a4 )
(例如在关税博弈中,第二阶段企业选择的均衡产量决定于政府在第一
阶段所选择的关税),但在两阶段囚徒困境中,第二阶段博弈惟一的纳
什均衡就是(L1 ,L2 ),不管第一阶段的结果如何。图2.3.1
图2.3.2
根据在第2.2.A节讲过的求解此类博弈子博弈精炼解的程序,第二
阶段博弈的结果为该阶段所余部分博弈的纳什均衡,在本例中,即为
(L1 ,L2 ),两人收益为(1,1),我们在此前提下分析两阶段囚徒
困境第一阶段的情况。由此,两阶段囚徒困境中,参与者在第一阶段的
局势就可归纳为图2.3.2所示的一次性博弈,其中,第二阶段的均衡收
益(1,1)分别被加到两人第一阶段每一收益组合之上。图2.3.2所示
的博弈同样有惟一的纳什均衡:(L1 ,L2 )。从而,两阶段囚徒困境
惟一的子博弈精炼解就是第一阶段的(L1 ,L2 )和随后第二阶段的
(L1 ,L2 )。在子博弈精炼解中,任一阶段都不能达成相互合作——
(R1 ,R2 )的结果。这一结论在更为一般的条件下同样成立(这里我们暂时离开两阶段
的例子,允许任何有限的T次重复)。令G={A1 ,…,An ;u1 ,…,un
}表示一个完全信息博弈,其中参与者1到n同时从各自的行动空间A1 到
A4 中分别选择行动a1 到an ,得到的收益分别为u1 (a1 ,…,an),…un (a1 ,…,an ),此后我们称博弈G为重复博弈中的阶段博
弈。
定义 对给定的阶段博弈G,令G(T)表示G重复进行T次的有限重复
博弈,并且在下一次博弈开始前,所有以前博弈的进行都可被观测到。
G(T)的收益为T次阶段博弈收益的简单相加。
定理 如果阶段博弈G有惟一的纳什均衡,则对任意有限的T,重复
博弈G(T)有惟一的子博弈精炼解:即G的纳什均衡结果在每一阶段重
复进行。 [13]
图2.3.3
现在,我们回到两阶段博弈,进一步考虑阶段博弈G有多个纳什均
衡的情况,如图2.3.3所示。战略Li 和Mi 与图2.3.1所示的囚徒困境完
全相同,只不过增加了战略Ri 使博弈有了两个纯战略纳什均衡:其一
是囚徒困境中的(L1 ,L2 ),另外还有(R1 ,R2 )这个例子中凭空
给囚徒的困境增加了一个均衡解当然是很主观的,但在此博弈中我们的兴趣主要在理论上,而非其经济学意义。在下一节我们将看到,即使重
复进行的阶段博弈像囚徒的困境一样有惟一的纳什均衡,但当重复博弈
无限次进行下去时,仍表现出这里所分析的多均衡特征。从而,本节我
们在最简单的两阶段情况下分析一个抽象的阶段博弈,以后再分析由有
经济学意义的阶段博弈构成的无限重复博弈也就十分容易了。
设图2.3.3表示的阶段博弈重复进行两次,并在第二阶段开始前可
以观测到第一阶段的结果,我们可以证明在这一重复博弈中存在一个子
博弈精炼解,其中第一阶段的战略组合为(M1 ,M2 ) [14] 。和第
2.2.A节相同,假定在第一阶段参与者预测第二阶段的结果将会是下一
阶段博弈的一个纳什均衡,由于这里阶段博弈有不止一个纳什均衡,因
而参与者可能会预测根据第一阶段的不同结果,在第二阶段的博弈中将
会出现不同的纳什均衡。例如,设参与者预测如果第一阶段的结果是
(M1 ,M2 ),第二阶段的结果将会是(R1 ,R2 ),而如果第一阶段
中其他8个结果的任何一个出现,第二阶段的结果就将会是(L1 ,L2),那么参与者在第一阶段所面临的局势就可归为图2.3.4所示的一次
性博弈,其中在(M1 ,M2 )单元加上了(3,3),在其余8个单元各
加上(1,1)。
图2.3.4
在图2.3.4的博弈中有3个纯战略纳什均衡:(L1 ,L2 ),(M1 ,M2 )和(R1 ,R2 )。和在图2.3.2中一样,这个一次性博弈中的纳什
均衡对应着重复博弈的子博弈精炼解。令(w,x),(y,z)表示重复
博弈的一个结果——第一阶段和第二阶段的行动分别为(w,x)和
(y,z)。图2.3.4中的纳什均衡(L1 ,L2 )对应着重复博弈的子博弈精炼解((L1 ,L2 ),(L1 ,L2 )),因为除第一阶段的结果是
(M1 ,M2 )外,其他任何情况发生时,第二阶段的结果都将是(L1 ,L2 )。类似地,图2.3.4中的纳什均衡(R1 ,R2 )对应了重复博弈的
子博弈精炼解((R1 ,R2 ),(L1 ,L2 ))。重复博弈的这两个子
博弈精炼解都简单地由两个阶段博弈的纳什均衡解相串而成,但图
2.3.4里的第三个纳什均衡结果却与前两者存在质的差别:图2.3.4中的
(M1 ,M2 )对应的重复博弈子博弈精炼解为((M1 ,M2 ),(R1 ,R2 )),因为对(M1 ,M2 )之后的第二阶段结果预期是(R1 ,R2),亦即正如我们前面讲过的,在重复博弈的子博弈精炼解中,合作可
以在第一阶段达成。下面是更为一般的情况:如果G={A1 ,…,An ;u1
,…,un }是一个有多个纳什均衡的完全信息静态博弈,则重复博弈
G(T)可以存在子博弈精炼解,其中对每一t
的纳什均衡,下一节我们在讨论无限重复博弈时还将涉及这一理念。
这个例子要说明的主要观点是,对将来行动所作的可信的威胁或承
诺可以影响到当前的行动。不过另外一点,也说明了子博弈精炼的概念
对可信性的要求并不严格。例如,在推导子博弈精炼解((M1 ,M2),(R1 ,R2 ))时,我们假定如果第一阶段的结果是(M1 ,M2),则参与双方都预期(R1 ,R2 )将是第二阶段的解,如果第一阶段
出现了任何其他8种结果之一,第二阶段的结果就会是(L1 ,L2 )。 ......
您现在查看是摘要介绍页, 详见PDF附件(8946KB,272页)。





