Dec 28, 2019

Game theory

博弈论/胆小鬼博弈/Chicken game,如何触发对自己有最大收益的纳什均衡点

最近接触了博弈论相关的思想,在决策人的空间中,对于被决策的个体行为进行预测解读和分析,从而使得结果向自己最有益的方向倾斜,如何准确把控其中临界点呢?


虎羊草 🐅🐑🌱

在动态规划中使用过虎羊草的例子 动态规划和递归:从虎羊草开始 草原上有 n 只老虎和 1 只羊,有如下规则:

  • 老虎只能吃羊(每次只能吃一只),羊只能吃草
  • 老虎吃羊之后会变成羊
  • 每只老虎都很聪明

那么老虎会不会吃羊呢?

由最基本的归纳法可以判断只有一只羊的时候,偶数只老虎情况下不吃,而奇数只老虎情况下可以吃。
而其中的这些限制规则就给每个老虎之间的博弈进行基本的规则限制,而在这些限制中,聪明的老虎会考虑自身吃羊后是否会被其它老虎吃掉,其中产生的每轮博弈都需要在每只聪明的老虎的预测和分析中,从而得出对自己有利的结果。

三姬分金(静态博弈)

现在有三个妃子(代号:A/B/C)在分 100 枚金币,她们按抽签的顺序依次提方案,有以下规则:

  1. 首先由 A 提出分配方案,然后 3 人表决,超过半数同意方案才被通过,否则将被处死,依此类推。
  2. 人性本恶:三个人在自己的收益最大化的前提下乐意看到其他人被杀死,
  3. 三个人都很聪明且理智。

那么第一个人提出怎样的分配方案才能够使自己的收益最大化?

若从 A、B、C 的顺序分别提出方案,那么 A 是否会很危险呢?无论在 A 提出方案之后 B、C 为了拿到更多的钱都会否定 A 的提案岂不是 A 将会必死呢?

当然不会是这样,下面用逆推来看这个问题。

A 被杀,只剩下 B、C

这种情况下根据上面三条规则无论 B 提出什么样的分金方案都会被 C 否定,这样就未获得半数以上人同意 C 可以拿到所有金币同时杀死 B。 B 很聪明,她预测到这种结果所以无论 A 在首轮提出什么样的分金方案她都会赞成。 而 A 也很聪明,她也知道无论自己如何分配 B 一定会支持自己。 A:我取 100 金币,你们一个都没有。 而 B 一定会赞成的时候 C 的态度就无所谓了,所以最优解是 A 取得所有金币。

新加入一个玩家 D 之后

按照上面 A->B->C 的顺序 A 知道如果自己死了,按照 B->C->D 的顺序 B 会拿到所有金币,那么此时 A 如何取得最优解呢? A:我取 98 金币,C、D 每人一个金币,B 一个都没有。 C、D 都很聪明,知道如果 A 死了,B 会拿到所有金币她们一个金币都没有,所以 CD 都会赞成 A 的分金方案。 所以对 A 的最优解是取得 98 个金币。

结论
  • A 作为第一个指定方案的人,有着天然的先手优势,可以根据规则指定最利于自己的方案,这种现象在生活中非常常见,就像市场上每个行业的的龙头垄断者绝大部分的利益(之前举过红海蓝海的例子)。
  • C、D 作为最后选择的人,往往没什么决策权,属于低端人群,但是却处于一个始终要被 A 拉拢的对象从而获取一定的利益(发展人民群众?我不想 404),否则如果 B 不存在,她们只能拿 0 金币,所以 C、D 虽然没什么危险,但是获得的收益往往很低。
  • 而 B 处于中间位置,既无先手优势(动态博弈中可以根据前面人的决策,决定和调整自己的决策)又不属于 A 拉拢的对象,称之为夹层(所以影视中一人之下万人之上的地位是最容易造反的位置)。
共谋

很多时候并不如 A 想的那么简单,BCD 不想让 A 拿去那么大的利益,CD 也想获得更多收益,BCD 比 A 想象的更聪明一些那么会不会 BCD 合起伙来无论 A 的提案是什么都将 A 否定然后等分金币呢?

然而更大的问题是,B 参与共谋之后会不会反悔呢(嘻嘻)? 如果游戏只玩一次那么 B 一定会反悔,CD 如果清楚这一点,一定不会参与和 B 共谋。

胆小鬼博弈(Chicken game)

同一条路上相向而行的两辆车(代号:A/B),谁先变道谁便是胆小鬼反之则是英雄,英雄可以指责这个胆小鬼是懦夫,都不变道则相撞同归于尽。那么在当胆小鬼还是英雄之间的选择有以下四种:

  • A 先变道了 A 是胆小鬼,B 是英雄
  • B 先变道了 B 是胆小鬼,A 是英雄
  • AB 都变道了,AB 都是胆小鬼,但是都活下来了
  • AB 都没变道,但是相撞同归于尽都死了

现在以可以活下来获得 1 收益,成为英雄或者不受到指责获得 1 收益,变道称为示弱,不变道为之逞强;有如下四种可能:

  • A 示弱 B 示弱,谁也不会指责谁且都活下来各获得 2 收益
  • A 示弱 B 逞强,A 活下来获得 1 收益,B 活下来同时是英雄可以指责 A 是懦夫得 3 收益
  • A 逞强 B 示弱,B 活下来获得 1 收益,A 活下来同时是英雄可以指责 B 是懦夫得 3 收益
  • A 逞强 B 逞强,同归于尽均为 0 收益

有如下收益矩阵:

A 示弱 A 逞强
B 示弱 (2, 2) (3,1)
B 逞强 (1, 3) (0,0)

所以(3,1)和(1,3)分别是 AB 的各自最大收益点,称之为纳什均衡点。 有以下两个规则:

  1. AB 都不想死所以不会同归于尽
  2. 双方都会想要是自己收益最大化

如果 A 知道 B 一定会逞强,那么 A 不想死那么 A 一定会选择变道反之 B 亦然,但是 AB 分别又想使得自己的收益最大化。 所以 AB 都会采取一个策略:尽量把自己伪装成逞强到底的表象。

而有个注意的点是伪装一定要适度,对疯子进行伪装可能会出现最差的结果。

一九六二年苏联与美国之间的古巴导弹危机可以用这个收益矩阵模型来解释,最终赫鲁晓夫和肯尼迪均选择退让让各自达到最大收益。

我们不怕走到战争的边缘,但是我们必须学会如何走到战争边缘又不掉入战争的艺术。
—— 杜勒斯

👾

Published on Dec 28, 2019