博弈论学习笔记

2019-01-20

学习笔记

1

博弈本质是他人的策略选择影响自己的策略选择。如果不存在影响或者影响过于复杂无法被预算，则不存在博弈。 4条准则：

选择绝对优势策略
所有人选择绝对优势策略反而可能没有达到帕累托效率。
再做策略选择时明白自己需求什么
当不存在优势策略时，考虑对方可能存在的优势策略，继而进行调整自己的行动。

群体，相互作用，策略，理性。

2

博弈的组成：参与人、策略（策略集合、策略组合）、收益优于，弱优于共同知识：互相知道互相知道……互相知道理性的无限循环相同知识：大家都知道的知识相同知识和共同知识不等价，大家都知道的知识不等同于A知道B知道的知识。 A和B都戴粉帽子，都只能知道对方帽子颜色。至少一人戴粉帽子是相同知识，而由于A不知道B知不知道至少一人戴粉帽子（自己的帽子未必粉色），所以不是共同知识

3

迭代剔除劣势策略中间选民定理最佳对策

4

不要选一个任何信念下都不是最佳对策的策略最佳策略：对其他参与人具体选择的某个策略，如果我的某个策略弱优于其他所有策略，则此策略为最佳策略。广义最佳策略：一个函数，以对方任何可能的策略作为参数，得到自己最佳策略的解外部性：承担更多边际风险的同时，收益却达不到付出。协同带来的收益越大，这种特性影响越少，人们会更加投入付出剪刀效应纳什均衡：双方都采用各自的最佳策略（所有玩家无限剔除劣势策略并知道对方也会无限剔除劣势策略后得到的策略）**

5

纳什均衡（NE表示）：策略组合是一个集合，该集合包含每个参与人的一个已选策略，用S1* S2一直到SM表示。 NE是满足以下条件：对于任意此集合内的参与人I，她所选择的策略Si*，是其他参与人所选策略的最佳对策理性人未必总选择纳什均衡纳什均衡的动机：

一旦到达纳什均衡，若其他人一定不改变，自己的改变一定是不利的。
纳什均衡可以被视为自我实施的信念
有些情况下，博弈结果会不断趋近于纳什均衡（初始状态影响结果）
纳什均衡本身具有强制力，因为符合自身利益

计算纳什均衡方法：

找到两个玩家针对另一个玩家的最佳对策
剔除劣势策略和非最佳策略，重新第一步
寻找最佳策略交点

严格劣势策略无法达成纳什均衡

参与人不多但策略多的博弈寻找纳什均衡通过猜测和验证。

协调博弈（和囚徒博弈不同，囚徒博弈有最佳策略）：例如聚会人越多越有趣，当人们都觉得其他人不参加时，自己也不会参加。当人们都觉得其他去的时候，自己也会去。银行挤兑（协调博弈的一种）协调博弈可以通过协调达到较优纳什均衡

6

策略互补博弈：对方越努力，自己越努力策略替代博弈：对方越努力，自己越不努力性别大战博弈：属于协调博弈，但不同参与者有不同的倾向古诺双寡头博弈模型：（a最高可能价格-c边界收益常数）/2b（需求对价格影响的需求曲线斜率），这个点为垄断收益纳什均衡交点：2（a-c）/3b 古诺产出完全竞争产出：(a-c)/b 最大产业效益是垄断效益就于价格：完全竞争产出低于古诺产出低于垄断产出价格

7

竞选人模型（多个不可选立场竞选人参与竞选）：纳什均衡有多个，作为左派加入竞选使得右派更容易赢，两个参选人太极端会让中间观点参选人能赢种族隔离：均衡的稳定性=》弱均衡、严格均衡、临界点。看起来毫无价值的规则可能提供重要条件并得到一些特殊结论，使得建模需要仔细考虑。种族隔离情况不能证明人们喜欢种族隔离，以及可以扩展各种现象，完全可能是每个个体选择了对自己相对收益更高的抉择导致的结果。随机分配可解决种族隔离问题，可以自上向下，也可以自下向上。混合策略：纯策略随机化石头剪刀布不存在纯策略纳什均衡，但存在混合策略纳什均衡

8

混合策略（pi）：表示采用每个纯策略的概率，pi（si）表示pi赋予纯策略si的概率。混合策略的预期收益是个每个纯策略预期收益（基于对方的混合策略和收益所算出）的加权平均数。所以混合策略的收益介于纯策略收益。 ★如果一个混合策略是最优选择，那么混合策略中的每个纯策略必须也是最佳策略，也就是说它们的收益必须相同。 ★一个混合策略组合p1、p2…pn是一个混合策略纳什均衡当且仅当对于任意参与人I在面对对方的p-i时他的混合pi是最好的策略。如果pi中某个纯策略被赋予了正概率，那么该策略本身是一个最佳策略。

寻找混合策略纳什均衡：所有混合策略中的单独策略收益相同，不然就违反了上面的规则。基于A的所有纯策略收益相同，就可以通过A的期望收益算出B的混合策略概率。直接影响（自己优势提升带来的倾向）和间接影响/战略影响（自己优势提升带来的对方应对倾向降低），有时战略影响要比直接影响带来的影响更深。

9

若不存在改选纯策略的有利改变，也就不存在改选混合策略的有利改变。当考虑检验混合策略是否最佳时，只需要对所有纯策略改变进行检验。因为混合策略的收益绝对不会大于纯策略，最多只会等同。 3种对混合策略的理解混合策略可以视为随机选择纯策略的策略（单独参与人随机化），也可以视为统计上多少比例的人选择某种纯策略（所有参与人选择不同策略的比例）。 A的混合策略可以视为B对A行为的信念，同理对B也是如此，可以把混合策略均衡理解为人们处于均衡状态时对对方行为理解。 ★影响A的均衡混合策略的方式，是修改B的收益。★ 查税博弈：单纯提高纳税人避税惩罚和收益，不会影响纳税人的缴税比例。收益越高，审计员越倾向于审查（对于富人）。

10

博弈论与进化论。进化稳定策略：即使有入侵的新策略，也会迅速消失。

自然进化可能导致效率降低
严格劣势策略不可能是进化稳定策略
如果一个策略不是纳什均衡，那么它不是进化稳定策略
是纳什均衡的策略，未必是进化稳定策略。只有严格纳什均衡，且优于其他一切纳什均衡策略才一定是

11

进化稳定策略判定（包含混合策略）：检验某策略在一系列策略中是否具有进化稳定性，先检查（P，P）是不是对称的纳什均衡。如果是，若是严格纳什均衡则一定是（混合策略纳什均衡不可能是严格纳什均衡）。如果不是严格纳什均衡，只要P应对突变个体的收益比突变个体对突变个体收益高即可。（对于混合策略对比，主要思考纯策略对抗即可）单型：纯策略多态：对称混合策略混合策略即代表对个体的策略随机运用，或者代表总体的不同纯策略种群组合比例

社会学角度：

可以有多种进化稳定的社会传统
这些习惯没有必要一定好

生物学角度：

斗争成本越高，侵略性越强
斗争成本越高，整体帕累托效率提高
identification「认证」：理论建立在科学基础，以便可以舍弃未知因素

12

贯序博弈：行为有顺序博弈用画树形图进行分析贯序博弈，预测时向前看再向后看 ★逆向归纳法★重点道德风险激励设计：降低道德风险，平摊风险承诺策略（包含担保）：通过放弃选择得到收益，因为可以改变他人的策略。如果对方不能得知自己放弃选择，那么不会带来任何改变。担保：主要的意义不是给贷方额外保证收益，而是给借方额外的负收益饿狮博弈：逆向归纳法进行分析同时博弈用矩阵分析

13

斯塔克伯格模型：古诺产量竞争模型改变为贯序博弈单纯先后顺序的普通承诺不算贯序博弈，必须有个可信承诺（沉没成本保证）贯序博弈的关键在于信息得知的顺序性，有时过多信息可能带来负面效果（因为它可能让对方拥有先行者优势）。先行者优势：未必一定存在。后行者优势在于得知更多信息和先行者提供的经验 NIM

14

判断先行者优势策梅洛理论：需求——两个参与者，完全信息博弈，有限博弈节点（非无限制持续），结果要么A，或A输或者平局得出结论：要么A胜利，要么B胜利，要么平局存在解（solution），一个保证让某个玩家胜利的策略证明：归纳推理法子博弈完全信息博弈：在任意一个节点上，或者说每个节点上的被轮中的参与者都知道自己处在整个博弈的哪个节点的博弈。（知道过去执行的每一个步骤）

在一个完全信息博弈中，一号参与人的纯策略是一个完整的行动计划。换句话说，这个纯策略决定了一号将在每个节点上采取的行动。无论一个行动计划中的部分计划是否保证计划中的所有节点会被到达，计划中都会存在对应的节点选择。但由于逆向归纳法的原因，这是必要的。陷阱：如果机械的寻找纳什均衡，可能出现参与人选择愚蠢的策略可信的威胁

15

连锁店博弈建立声望即使是一个很小的概率，也可能彻底改变博弈结果。决斗博弈：优势策略和逆向归纳法的混合运用，一直到某个人的命中率大于等于对方的失误率时（即2人的命中率和大于1），此时进行攻击。先下手为强未必准确，实际上可能导致毁灭。且人们过于自信，导致失败。

16

最后通碟：2人博弈，A提出按照α，1-α的方式划分X数量的钱，b选择是否接受。若接受，就如此划分，若拒绝就双方什么都不得到折损为β（时间带来的收益损耗）多期议价：上述博弈如果b不接受，互换角色划分X乘β（0＜β＜1） N期议价后划分期望=β∧0-β∧1+β∧2-β∧3……+（-1）∧（N-1）*β∧（N-1）（等比级数）计算得出（1-β∧N）/（1+β）为最初应提供的钱。（方法为复制一个上面公式并乘β，二个等式相加）当议价无限长时，首个提价人得到1/（1+β）比例的钱，分给对方剩下的。

当β=1时，平分才是最佳策略。意味着参与人越耐心，最终议价结果可能对他越好。现实中会出现各种信息不完全，比如不清楚物品对对方的价值和对方的折损参数。信息不完全时会产生效率低的议价，因为双方都希望占据优势，保留信息。

17

分析结合同时博弈和贯序博弈的博弈树状图中用虚线链接节点表示信息集合，信息集合内的具体信息无法被辩识。信息集合：i的信息集合是一系列参与人i无法识别的节点。有些情况下的信息集合没有意义，因为玩家可以通过自己的选择数和之前的选择有效推理出。完美信息博弈：树图上所有的信息集合都只包含一个节点的博弈所有同时博弈都可以通过信息集合来用树表达纯策略（新定义）：i的纯策略是一个完全的行动计划，它告诉参与人i在他的每个信息集合要做什么行动。树可以转化为矩阵，但矩阵未必能转化为被转为矩阵的对应树，但本质没区别（同时博弈在于信息对称不可知，而非抉择顺序。所以在双方都不知道对方选择时，基于抉择顺序可能画出不同树）树的策略即使冗余（某些先前选择不可能达到后续选择），也得表现出来，并且可由此转化为矩阵形式。通过矩阵可以找出纳什均衡，但并非所有的都是合理的。逆向归纳法、优势策略和纳什均衡组合分析。子博弈：子博弈是博弈的一部分并且本身也是个博弈，并满足3个条件：从某一个单个节点开始、它包含该节点的所有子节点、它不能破坏任何信息集合。整个博弈自身也是自己的一个子博弈，只不过不是真子博弈。 ★子博弈完美均衡：如果纳什均衡S1，S2……如果它能在任子博弈中达到纳什均衡，简称SPE。★ 子博弈完美均衡是后续研究博弈的最有用工具，也排除了无用的纳什均衡。

18

子博弈精炼：从最后一个子博弈开始，求出子博弈收益（可能存在混合策略纳什均衡）。依次往上推，直到整体博弈。然后去除不能在所有子博弈纳什均衡的均衡。博弈精炼均衡应该和逆向归纳法的结果一致写策略时可能会有多余步骤，但这个步骤是有必要的。它的存在是其他参与人认为你可能采取的策略。包含混合策略的非完全信息博弈的SPE

进行思考时，需要考虑战略策略收益的非直接性。尤其是有些策略可能对自身没有多少影响，但通过对他人影响，反过来对自身造成影响。