不对称和博弈问题概述.ppt
- 文档编号:18071535
- 上传时间:2023-08-10
- 格式:PPT
- 页数:59
- 大小:1.34MB
不对称和博弈问题概述.ppt
《不对称和博弈问题概述.ppt》由会员分享,可在线阅读,更多相关《不对称和博弈问题概述.ppt(59页珍藏版)》请在冰点文库上搜索。
邹啸鸣,不对称信息asymmetricinformation,邹啸鸣,一、informationsort信息的分类公共信息(publicinformation)是指所有市场参与者都能够自由获得的信息;与私人信息(privateinformation)指只有某个市场参与者单独拥有的信息。
价格就是“公共信息”,家庭根据自己的收入、偏好等私人信息决定需求量,企业根据自己的成本、技术等私人信息决定供给量。
邹啸鸣,完全信息与不完全信息,所谓完全信息,就是市场主体拥有市场环境的全部知识,包括公共信息和私人信息。
邹啸鸣,确定信息与不确定信息当一项决策产生且只能产生一种结果时,称为确定信息。
如果一项决策可能产生两种以上的结果时,称为不确定信息。
邹啸鸣,对称信息与不对称信息,对称信息(symmetricalinformation)是指,有关主体同等拥有彼此的信息,由此产生对称市场。
包括:
彼此拥有完全信息。
彼此拥有不完全但同等程度的信息。
不对称信息(asymmetricalinformation)是指有关经济主体并不同等拥有彼此的信息,或者说,一方拥有另一方所没有的私人信息,由此产生非对称性市场。
包括:
买方与卖方彼此拥有的信息不同。
买方之间拥有的信息不同。
卖方之间拥有的信息不同。
邹啸鸣,“柠檬市场”与“市场信号”,阿克尔洛夫:
2001年诺贝尔经济学奖获得者(70年柠檬市场)。
阿克尔洛夫提出旧车市场模型,开创了逆向选择理论先河。
信息不对称。
在旧车市场上表现为:
旧车卖主知道车的质量,而买者并不知道,只知旧车的平均质量,因而只愿根据平均质量支付价格,那么质量最差的车主急于将车脱手。
当车价下降时,那些只有轻度缺陷的车主将退出。
旧车市场剩下的劣车,即“坏车驱逐好车现象”。
这样将导致市场上质量恶化甚至市场畏缩或不存在。
邹啸鸣,旧车市场,SH高于SL,这是因为高质量车主更不愿意与他们的车分离,除非得到更高的价格。
同理,DH高于DL。
在完全信息情况下,每种车成交5000辆。
但是卖主比买主对车的质量知道更多。
因此买主先将“所有车都看成是中等质量的”。
既出现DM当市场存在的是更多低质量车和更少高质量车的情况后,最终结果是市场只有低质量车成交。
QH,PH,SH,DH,DLM,DL,10000,25000,5000,QH,PH,SL,DM,DLM,DL,5000,75000,5000,DM,办法:
1、将信号传递给买方或买方诱使卖方披露其私人信息。
因此代理人愿显示自己的质量类型,选择某种信号,使自己的质量类型能被委托人识别,委托人在观察到代理人的信号后,与代理人签定合同。
在旧车市场上卖方发出信号表明他提供的是好车,并且质量越好其披露越充分。
这叫“信号显示机制”2、销售者保修以显示质量好。
邹啸鸣,二、adverseselection逆向选择,例:
次品(lemons)市场:
事前的隐蔽信息hiddeninformation次货逐出好货即逆向选择:
100辆好车愿出价8万,愿购价10万。
100辆差车愿出售价4万,愿购价5万。
因信息不对称,市场失效。
邹啸鸣,逆向选择的其他例:
保险市场中的逆向选择。
为什么用行政命令来推行保险。
自我披露信息的制度设计:
如财产保险中的最低数量的免赔额。
劳动力市场中的信息问题政府颁发证书:
质量鉴定、资格证书的作用,邹啸鸣,三、hiddeninformation败德行为事后的不完全信息。
败德行为的含义:
在协议达成后,协议的一方通过改变自己的行为,来损害对方的利益。
也称隐蔽行为hiddenaction。
保险公司面对的败德行为。
邹啸鸣,四、problemofprincipal-agent委托人-代理人问题1、X-非效率的定义:
厂商在给定资源下所生产的实际产量,低于它能达到的最大产量。
努力程度的不可观察性。
2、产生委托人-代理人问题的条件:
委托人利益的实现取决于代理人的工作。
委托人与代理人的目标不同。
有关代理人工作状况的信息是非对称的。
经理的年薪,期权。
效率工资的概念:
高于市场均衡工资的工资。
的,邹啸鸣,博弈论GameTheory,邹啸鸣,
(一)博弈论的产生与发展也称为游戏理论、对策论。
1838年的Cournot(古诺)模型,20世纪20年代法国的Borel(波雷尔)用最佳策略分析了下棋等问题。
1944年Neumann(诺依曼)和Morgensten(摩根斯坦)合著的博弈论和经济行为标志了这个学科的成形。
上个世纪50-60年代是博弈论发展的最重要时间。
博弈论与经济学的关系1994年Nash(纳什)、Harsanyi(海萨尼)和Selten(塞尔顿)共同获得诺贝尔经济学奖。
邹啸鸣,
(二)博弈论的基本概念博弈论的本质:
一个决策主体的最优选择是其他行为主体选择的函数。
邹啸鸣,一、基本要素,参与者策略支付报酬(正、负)每个博弈格局中,至少有两个参与者,每个参与者都有一组可选择的策略。
每个参与者都得到各自的支付报酬,其支付可以为正,可以为负。
邹啸鸣,二、博弈均衡的基本概念,当乙选择“合作”时,甲的最优选择是“不合作”。
当乙选择“不合作”时,甲的最优选择仍然是“不合作”。
甲的最终选择是“不合作”。
实际上,“不合作”既是甲的,也是乙的“最优策略”。
占优策略:
无论其他参与者采取什么策略,某参与者的唯一的最优策略是他的占优策略。
博弈均衡:
博弈中的所有参与者都不想改变自己的策略的这样一种相对静止的状态。
占优策略均衡:
由博弈中的所有参与者(自己的)占优策略组合所构成的均衡就是占优策略均衡。
纳什均衡:
在这里,任何一个参与者都不会改变自己的最优策略,如果其他参与者均不改变各自的最优策略。
既:
你不改变,我不改变。
你改变,我改变。
兵来将挡,水来土掩。
邹啸鸣,分析纳什均衡,在一个纳什均衡里,任何一个参与者都不会改变自己的最优策略,如果其他参与者均不改变各自的最优策略。
(D、L)和(U、R)都不是均衡的。
占优的策略一定是纳什均衡,但纳什均衡未必是占优均衡,乙选L,甲选U;乙选R,甲选D;,甲的选择“不唯一”,没有占优策略,甲选U,乙选L;甲选D,乙选R;,乙的选择“不唯一”,也无占优策略。
在(U、L)组合中,只要甲选择了U,乙的最优就是L,倒过来一样。
在(D、R)组合中,只要甲选择了D,乙的最优就是R,倒过来一样。
邹啸鸣,Prisonerdilemma囚徒困境,无论甲是否坦白,乙都选择“坦白”为最优策略。
倒过来一样。
深刻反应了个人理性(坦白)与团体理性(不坦白)的冲突。
“坦白-坦白”不如“不坦白-不坦白”,博弈双方都有一个占优策略,它们都是坦白。
这就是说,囚犯困境的博弈者都有一个占优策略均衡(坦白、坦白)。
邹啸鸣,这甚至形成对亚当斯密的“看不见的手”的理论的质疑。
重复博弈就是解决这个难题的。
“合作-合作”优于“不合作-不合作”,“串谋”是共赢。
这也是卡特尔组织的理论依据。
在“合作-合作”组合中,“不合作”的诱惑更大。
1210。
只有“不合作-不合作”才是均衡的。
“非法”加重了卡特尔组织的不稳定性。
寡头厂商的共谋及不稳定,邹啸鸣,3、重复博弈:
走出囚犯困境,静态博弈:
一旦每个参与者的策略是选定的,整个博弈的结局就是确定的。
每个参与者都不可能再次对博弈的过程和结果施加什么对自己有利的影响。
动态博弈:
一种反复进行的博弈,分重复博弈(结构相同的博弈被重复多次。
)和不重复博弈。
每个寡头们都面临着“囚徒困境”。
每个寡头的个人理性的占优选择却导致了“占优均衡策略均衡”中总体利益的下降。
同时个人利益下降。
在“一次性博弈中,任何厂商的违约和欺骗行为都不会得到惩罚。
因此,一次性博弈的囚犯困境的不合作解是必然的。
因此需要考虑“重复博弈”。
邹啸鸣,“以牙还牙”策略与无限次重复博弈,在这样的条件下,只要某一个参与者在某一博弈中采取了不合作的违约和欺骗行为,他便会在下一轮博弈中受到其他参与者的“以牙还牙”策略的惩罚。
因此,他将比较的是违约的短期收益()不合作的长期收益(88)与违约的长期损失()的惩罚。
邹啸鸣,“以牙还牙”策略与有限次重复博弈,用逆推法来分析只有次的博弈可以得出结论:
最后一轮最应该采取“不合作”策略。
倒推到第一轮,每个参与者就有可能会采取“不合作”的策略。
所以,在这个模型中,寡头厂商们的共谋是不稳定的。
博弈的占优策略均衡解就是(不合作不合作)。
在“以牙还牙”策略前提下,对于无限期重复博弈而言,博弈的均衡解是(合作合作)。
而对于有限期重复博弈而言,博弈的均衡解是(不合作不合作)。
无限期的主要特征是每个参与者都不知道哪一期是最后一期。
所以,在不能确定终止期待有限期重复博弈的寡头厂商共谋模型或者囚犯困境模型中,纳什均衡的合作解是可以存在的。
邹啸鸣,1300,900,不抵制,800,抵制,不进入,进入,策略,在位者,进入者,参与者,1300,威胁和承诺的可信性,900,900,600,1200,为了阻止潜在进入者的竞争,在位者的策略是扩大市场规模并威胁:
谁进入就大量生产并抛售产品压低价格。
让进入者无利可图。
如果进入者受到威胁选择“不进入”,那么在位者将稳赚1300。
自己则只赚900。
如果进入者选择进入,那么在位者的抵制将导致价格下降,进入者只赚,在位者自己只赚。
但是,在位者采取“不抵制”策略,则在位者可以赚取,高于“抵制”策略。
即使“进入者”赚取了。
什么样的威胁是“可信”的呢?
只有当在位者采取“不抵制策略”导致收益低于“抵制”策略的时候,才是可信的。
700,邹啸鸣,合作博弈与非合作博弈,合作博弈(cooperativegames):
参与人之间达成有约束力的协议条件下的博弈。
非合作博弈(non-cooperativegames):
参与人之间没有形成有约束力的协议条件下的博弈。
也即独立作出决策选择,邹啸鸣,常和博弈与变和博弈,常和博弈(constant-sumgame)是指局中人的利益根本对立,各自收益之和是一个常数。
排球等体育比赛的每个回合,双方得分之和恒为1。
特点地区特定产品竞争的各企业市场份额其和为一。
特例是零和博弈。
比如赌博。
但股票则未必属于零和博弈。
变和博弈(variable-sumgame)是局中人的利益既对立又统一,各自收益之和是一个变数。
足球比赛:
赢者独得3分,平则各得一分。
国际贸易中,由于存在比较利益,会出现双赢或多赢局面。
邹啸鸣,静态博弈与动态博弈静态博弈(staticgames):
参与人同时,或虽然不同时,但后行者并不知道先行者选择的博弈。
囚犯困境是“背靠背”的囚犯间博弈,不是囚犯跟警察间的博弈。
但博弈的结局却是:
囚犯都“跟警察合作”。
动态博弈(dynamicgames):
参与人有先后顺序,而且,后行者可以观察到先行者选择的博弈。
囚犯困境在“二进宫”、“三进宫”以后,彼此都知道对方的策略特征。
邹啸鸣,完全信息博弈与不完全信息博弈完全信息博弈(gamesofcompleteinformation)是指每个参与人对其他参与人的特征、策略和支付都完全了解条件下的博弈。
囚犯困境中的支付情况:
A知道,B也知道;A知道B知道,B也知道A知道;A知道B知道A知道,B也知道A知道B知道。
不完全信息博弈(gamesofincompleteinformation)是指每个参与人对其他参与人的特征、策略和支付并不了解,或不精确了解条件下的博弈。
邹啸鸣,二、staticgamesofcompleteinformation完全信息静态博弈,邹啸鸣,
(一)dominantstrategies占优策略均衡,定义:
不论其他参与人选择什么策略,他的最优策略是唯一的,这样的最优策略被称为“占优策略”。
囚徒困境是占优策略的经典。
邹啸鸣,新产品开发,乙企业在开发上更强。
纳什均衡为乙开发甲不开发,乙企业的开发能力强,如果两个企业同时开发,则甲、乙的收益为(10,-5),如果只有一个企业开发,则甲的收益为20,乙的收益为30。
如果两个企业都不开发,则收益都为0。
邹啸鸣,
(二)重复剔除的占优策略均衡智猪的支付,按按钮的成本A、支付相当于2个单位猪食的成本;B、它将成为猪食槽边的后到者,而少吃食。
邹啸鸣,boxedpigsgames智猪博弈,strictlydominatedstrategies严格下策:
无论其他博弈参与人采取什么策略,某一参与人可能采取的策略中,对自己严格不利的策略。
邹啸鸣,重复剔除的占优策略均衡:
找出博弈中某一参与人的严格下策并于以剔除,在重新构造的新博弈中,再剔除某一参与人的严格下策,直至剩下的唯一的参与人策略组合,并成为这一博弈的均衡解。
邹啸鸣,Pricewar价格战,乙企业,甲企业,乙的降价是严格下策,剔除。
此时,乙的原价成了严格下策,剔除。
降价、创新成此子博弈的纳什均衡。
邹啸鸣,(三)Nashequilibrium纳什均衡每个参与人都确信,在给定其他参与人策略的条件下,他选择了最佳策略以回应对手的,这样所达成的均衡,称为纳什均衡。
占优策略均衡一定是纳什均衡,重复剔除的占优策略均衡也一定是纳什均衡。
此外还可能有不稳定的均衡。
(例子:
下一张),邹啸鸣,battleofthesexesgames性别战,邹啸鸣,混策略纳什均衡在有些博弈中,确定性的纯策略虽不存在纳什均衡,但是,采用随机选择的混策略,却存在混合策略纳什均衡。
怎么办?
如果对方以一定概率选择混策略,我选择的混策略是我所能选择的预期收益最大的混策略,称为最优混策略。
各方最优混策略的组合,构成混策略纳什均衡,简称为混合均衡。
邹啸鸣,下岗与救济,设政府采取救济与不管的概率是PA和PB;下岗工人采取就业与休闲的概率为Pa和Pb。
政府力求下岗工人两种选择的预期收益相等,即:
PA2+PB1=PA3+PB0;PA=PB;即PA=PB=0.5,同理,Pa3+Pb(-1)=Pa(-1)+Pb0;Pa=1/4Pb,Pa=0.2;Pb=0.8。
注:
这个支付有问题,因为80%选择休闲,邹啸鸣,三、dynamicgamesofcompleteinformation完全信息动态博弈动态博弈次序是关键,邹啸鸣,
(一)subgame子博弈,这二个策略组合,本身也构成为一个博弈。
当在一个博弈中的纳什均衡解,其本身也是一个博弈时,这个解称为原博弈的子博弈。
房地产开发博弈(静态),邹啸鸣,
(二)动态博弈的策略上述的博弈中,并没有稳定的解。
如何才能“精炼”出一组策略呢?
方法有二:
先动优势和确实可信的威胁,邹啸鸣,1、first-moveradvantage先动优势在房地产开发博弈中,如果A首先开发,B只能选择不开发。
反之也然。
这就有了解。
这样的一旦一个参与人做出了选择,就排除了某个子博弈的动态博弈,称为sequential-movegames序贯行动博弈。
这样达成的均衡,称为sequentialequilibrium贯序均衡。
邹啸鸣,2、crediblethreat确实可信的威胁如果在A做出选择之前,B与某一客户签订合同,规定B在一定期限内向客户交付一定面积的住房;如果B不能按时履约,则赔偿客户5单位货币。
这时的支付发生了改变。
邹啸鸣,3、房地产开发博弈(静态),参与人改变博弈结果而采取的措施,称为“承诺”(commitment)。
不过,也会存在“不可置信的威胁”。
确实可信的威胁需要参与人通过某种行动能够确实地改变自己的支付,并从子博弈中“精炼”出有利于自己的均衡;这时的均衡就称为“子博弈精炼纳什均衡”(sub-gameperfectNashequilibrium)。
“首先开发”也是确实可信的威胁,邹啸鸣,(三)repeatedgames重复博弈重复博弈是指同样的博弈重复许多次,其中每次博弈称为阶段博弈(stagegame)。
重复次数的重要性来自参与人在短期利益与长期利益之间的权衡。
邹啸鸣,产品定价博弈,A在这里所采取的策略称为冷酷策略(grimstrategies),即:
任何一个参与人的一次不合作,将永远的不合作。
但在重复博弈时结果就不同。
以重复4次为例,B的支付为40+24+24+24,其长期收入大大低于与A维持现价的(32+32+32+32)。
邹啸鸣,四、staticgamesofincompleteinformation不完全信息静态博弈垄断市场中在位者与进入者的博弈,高成本情况,低成本情况,由于进入者不知道在位者阻挠的成本是高还是低,无法求解。
邹啸鸣,海萨尼(1967-1968)完成的工作海萨尼转换(theHarsanyitransformation),把“不完全信息博弈”(gamesofincompleteinformation)转换成“完全但不完美信息博弈”(completebutimperfectinformation),使求解成为可能。
他引入一个首先行动的“自然”(假设的第三者),并由“自然”选择参与人的类型。
被选择的参与人知道自己的真实类型,而其他参与人并不清楚这个被选择的参与人的真实类型,仅知道各种可能类型的概率分布。
而且,这个概率分布是共同知识(commonknowledge)。
邹啸鸣,接上页通过概率把支付转换为期望支付。
如果高成本的概率为X,那么低成本的概率为(1-X)。
进入者得到的期望利润为40X+(-10)(1-X),而且,应当大于零;而选择不进入得到的期望利润为零。
因为:
40X+(-10)+10X050X-100X0.20当在位者的阻挠是高成本的概率大于1/5时,所得的均衡是:
进入者选择进入,高成本在位者选择默许,低成本在位者选择斗争。
这样的均衡,海萨尼定义为:
贝叶斯纳什均衡(BayesianNashequilibrium)。
邹啸鸣,五、evolutionarygametheory演化博弈论行为生物学与演化生物学。
鸟的行为:
如何解决头顶的蚤子?
傻瓜策略一旦生物的基因发生小的变异:
傻瓜策略十骗子策略=物种消失傻瓜策略+小气鬼策略=傻瓜策略骗子策略+小气鬼策略小气鬼特征:
1、善良的;2、小气的;3、宽容的,邹啸鸣,演化的稳定策略(ESS)多数采取小气鬼策略在演化中是稳定的。
theevolutionaritystablestrategy多数采取骗子策略也是一种ESS,但由此会使物种消亡。
邹啸鸣,艾克斯罗德的研究在二难博弈中选择最佳策略的问题。
邹啸鸣,第一阶段14+1个策略,每个策略共15局,Axelrod电脑竞赛,互相背叛:
1点,(,相互合作:
3点(支付成本),背叛:
5点(不付成本),每局反复博弈200回合,最高可得分600分,邹啸鸣,结果不首先背叛的策略被称为好策略,有8个。
其余会首先背叛的策略被称为是差劲的策略,有7个。
得分最高的是针锋相对的策略,是由多伦多大学的心理学家拉波波特教授提供的;得分为504分。
原则是:
善良和宽恕。
邹啸鸣,第二阶段:
62+1个策略看了第阶一段的结果,出现二种判断:
或者认为善良与宽恕仍然会成功;或者认为正因为如此,而采用了狡猾的策略,要整整这些参赛的笨蛋。
结果,针锋相对得分576分仍然最高。
得分前15名的只有一个不是善良的策略。
得分最后的15名中,只有一个不是狡猾的策略。
但是,这一届殿后的总是“两怨还一报”的超级善良者,因为这一届有了太多的狡猾的策略。
而在上一届是可以胜利的。
邹啸鸣,第三阶段(还是63策略)改变比赛的规程和方式:
每一种策略的胜利,不再是点数,而是获得的自己的复制后代(繁殖)。
经过1000代的博弈后,策略的比例和环境不再改变,达到某种程度的稳定。
狡猾型策略,比如其中最成功的“Harrington”,前150代增长非常迅速,因为它专门捕杀“两怨还一报”的傻瓜,在1000代左右,当傻瓜绝迹后,Harrington也跟着差不多绝迹了。
邹啸鸣,个人的习惯向习俗和惯例的演化以行车规则为例:
驾车博弈,均衡点主要有二个:
RR、LL,邹啸鸣,续上页开始从RL或LR出发,靠“境势暗示”(contextualcues)(Young1996)来协调。
一旦某一社区出现一种多数的情境,在策略互补条件下,从众效应将起作用。
不同社区形成不同的(R或L)习俗(整体多元化效应)。
习俗向不同社区的整合或扩散:
英国、法国与瑞典(1967年)的。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 不对称 博弈 问题 概述