经济学中的博弈论
2025-02-12
本文将重点讨论一下博弈论在经济学领域的一些理论基础和简单应用。
博弈论通常可以分为对称博弈和非对称博弈。
为了简化问题讨论,文章中没有明确说明的博弈问题都指代的是两人博弈。
纳什均衡
在引入具体的博弈模型之前,让我们先引入一个重要的概念:纳什均衡。
纳什均衡是指在一个博弈中,每个参与者都选择了己方的最优策略,在其他参与者的策略保持不变时,任何一方都无法通过改变自身的策略让己方的结果更好。 这个概念在博弈论领域的应用非常广泛,它有助于我们更好的理解这些博弈论模型的最终结果导向。
囚徒困境
囚徒困境(Prisoner’s Dilemma)是博弈论中最著名的模型之一,是由美国兰德公司 (RAND Corporation) 的科学家在冷战时期最早提出的问题。在 1950 年的一场学术研讨会上,普林斯顿大学数学家阿尔伯特·塔克 (Albert Tucker) 将这个博弈问题用“两个囚徒”的故事进行了生动化描述,因此得名“囚徒困境”,它是对称博弈中的一个较为经典的模型。
下面,我们通过一个[小游戏:囚徒困境]来具体了解一下这个博弈模型。
通过上述游戏,我们对这个模型问题有了一个基础的理解,现在,我们具体分析一下这个模型中的问题。我们将这个游戏中的判刑X年, 简化为下述的收益矩阵的收益为-X, 问题描述可以简化为下列的收益矩阵:
决策 | 合作 | 背叛 |
---|---|---|
合作 | -1, -1 | -10, 0 |
背叛 | 0, -10 | -3, -3 |
对手选择的策略为合作: 我们如果选择合作的收益为-1, 选择背叛的收益为0
对手选择的策略为背叛: 我们如果选择合作的收益为-10, 选择背叛的收益为-3
显然,在上述的游戏规则下, 参与者在能够博取自身最大化利益的选择, 一定是"背叛"。由此,我们衍生出了一个新的概念:
纳什均衡: 在所有参与者的策略组合中,没有任何一个参与者能够通过单方面改变自己的策略来提高自己的收益。
换句话说,纳什均衡就是个体在其他参与者的策略都已知的情况下的最优解。上述囚徒困境的问题中, 双方均选择“背叛”的策略,就是一种纳什均衡。
可以看到, 囚徒困境的纳什均衡虽然是个体利益的最优解,却不是集体利益的最优解。
智猪博弈
智猪博弈(Boxed Pigs Game)是博弈论中的一个经典模型,由经济学家约翰·纳什(John Nash)提出。它通过一个简单的场景,揭示了在不对称竞争中,强者和弱者如何做出最优策略的选择,因此,他也是非对称博弈中一个较为经典的模型。
下面,我们先简单做个模型的概述。 假设猪圈里有一头大猪和一头小猪,猪圈的一头有一个食槽,另一头有一个按钮,按下按钮后会有10个单位的猪食进入食槽,但按下按钮的猪会消耗2个单位的成本。大猪和小猪可以选择“按按钮”或“等待”,其收益情况如下:
大猪/小猪 | 小猪按按钮 | 小猪等待 |
---|---|---|
大猪按按钮 | 5,1 | 4,4 |
大猪等待 | 9,-1 | 0,0 |
从收益矩阵可以看出:
如果大猪按按钮,小猪等待,大猪得到4个单位,小猪得到4个单位。
如果大猪按按钮,小猪也按按钮,大猪得到5个单位,小猪得到1个单位。
如果大猪等待,小猪按按钮,小猪会亏损1个单位,而大猪得到9个单位。
如果两者都等待,则两者都得不到任何收益。
在这个模型中,小猪的最优策略是“等待”,因为无论大猪是否按按钮,小猪选择等待的收益总是高于按按钮。而大猪知道小猪会选择等待,因此只能选择按按钮以确保自身收益。最终的纳什均衡是:大猪按按钮,小猪等待,双方各得4个单位的收益。
智猪博弈的模型和结论为我们理解资源分配、合作与竞争提供了重要的理论基础。
重复博弈
重复博弈通常分为了有限博弈和无限博弈,这两类博弈通常需要进行多轮博弈,它们的主要区别在于博弈的重复次数是否确定、有限,这也将一定程度影响参与者在博弈中的策略和行为模式。
上面提到囚徒困境和智猪博弈的纳什均衡,都是基于单次博弈中个体的最优策略。但如果博弈的次数大于1次,博弈的过程需要考虑的因素就需要额外关注当前自己的决策可能对后续他人决策带来的影响。以下是几种常见的重复博弈策略:
- 以牙还牙(Tit for Tat, TFT)
策略描述:在第一轮选择合作,之后的每一轮都模仿对手上一轮的选择。
对抗效果:如果双方都采用TFT策略,博弈会稳定在合作状态,双方都能获得较高的收益。然而,TFT策略对错误信号非常敏感,一旦出现误解或误判,可能会陷入“背叛-背叛”的恶性循环
- 宽容的以牙还牙(Generous Tit for Tat, GTFT)
策略描述:在TFT策略的基础上增加“宽容”机制,即使对手背叛,仍有一定概率选择合作。
对抗效果:相比TFT策略,GTFT策略更能容忍错误信号,避免因误判而陷入长期的背叛循环。在有噪声的环境中,GTFT策略表现优于TFT策略。
- 总是合作(AllC)和总是背叛(AllD)
策略描述:AllC策略始终选择合作,AllD策略始终选择背叛。
对抗效果:AllC策略在面对AllD策略时会遭受重大损失,而AllD策略虽然能在短期内获得高收益,但在面对其他策略时可能无法维持长期优势。
- 赢-保持-输-转换(Win-Stay, Lose-Shift, WSLS)
策略描述:如果本轮合作成功,则继续合作;如果合作失败,则切换到背叛。
对抗效果:WSLS策略在面对合作策略时表现良好,但在面对背叛策略时可能陷入不稳定状态
- 随机策略
策略描述:以随机概率选择合作或背叛。
对抗效果:随机策略难以被对手预测,通常无法获得稳定较高的收益。
在无限期重复囚徒困境博弈中,以牙还牙策略及其变体(宽容的以牙还牙策略)通常被认为是最有效的策略,因为它们既能够促进合作,又能对背叛行为进行有效回应。