相关文章推荐
腼腆的烈马  ·  Invalid header ...·  1 年前    · 
完美的牛肉面  ·  Delphi VCL ...·  1 年前    · 
本文介绍了博弈论的基本概念,包括自我利益代理、效用理论、纳什均衡、战略推理、最优响应、混合策略、帕累托最优等。以TCP Backoff Game和点球大战为例,展示了博弈论在实际问题中的应用。此外,还讨论了贝叶斯博弈,分析了警长困局,提出了合作博弈的概念,探讨了合作博弈的效用分配方法,如夏普利值和核心。 摘要由CSDN通过智能技术生成
  • 1-6 Strategic Reasoning
  • 1-7 Best Response and Nash Equilibrium
  • 1-8 Nash Equilibrium of Example Games
  • 1-9 Dominant Strategies
  • 1-10 Pareto Optimality
  • 2-1 Mixed Strategies and Nash Equilibrium Taste
  • 2-2 Mixed Strategies and Nash Equilibrium
  • 2-3 Computing Mixed Nash Equilibrium
  • 2-4 Hardness Beyond 2x2 Games
  • 2-5 Example: Mixed Strategy Nash
  • 2-7 Data:Professional Sports and Mixed Strategies
  • 3-1 Beyond the Nash Equilibrium
  • 3-2 Strictly Dominated Strategies & Iterative Removal
  • 3-3 Dominated Strategies & Iterative Removal:An Application
  • 3-4 Maxmin Strategies
  • 3-5 Maxmin Strategies
  • 3-5 Correlated Equilibrium:Intuition
  • 4-1 Perfect Information Extensive Form:Taste
  • 4-2 Formalizing Perfect Information Extensive Form Games
  • 4-3 Perfect Information Extensive Form:Strategies,BR,NE
  • 4-4 Subgame Perfection
  • 4-5 Backward Induction
  • 4-6 Subgame Perfect Application:Ultimatum Bargaining
  • 4-7 Imperfect Information Extensive Form:Poker
  • 4-8 Impect Information Extensive Form:Definition,Strategies
  • 4-9 Mixed and Behavioral Strategies
  • 4-10 Incomplete Information in the Extensive Form:Beyond Subgame Perfection
  • 5-1 Repeated Games
  • 5-2 Infinitely Repeated Games:Utility
  • 5-3 Stochastic Games
  • 5-4 Learning in Repeated Games
  • 5-5 Equilibria of Infinitely Repeated Games
  • 5-6 Discounted Repeated Games
  • 5-7 A Folk Theorem for Discounted Repeated Games
  • 6-1 Bayesian Games:Taste
  • 6-2 Bayesian Games:First Definition
  • 6-3 Bayesian Games:Second Definition
  • 6-4 Analyzing Bayesian Games
  • 6-5 Analyzing Bayesian Games:Another Example
  • 7-1 Coalitional Game Theory:Taste
  • 7-2 Coalitional Game Theory:Definitions
  • 7-3 The Shapley Value
  • 7-4 The Core
  • 7-5 Comparng the Core and Shapley Value in an Example
  • 以一个经典案例引出博弈论
  • TCP Backoff Game
    两台电脑之间想要实现通信,两种方式可供选择,建立回退机制以及不建立回退机制。如果AB双方均建立回退机制,则双方延迟都是1。如果A、B一方建立回退机制,另一方不建立,那么建立的一方延迟是4,不建立的一方延迟是0。如果双方都不建立回退机制,则双方延迟都是3。
    在这里插入图片描述
  • 该问题的结果有一特点,即自己做出决策的收益不仅跟自己的决策有关,还跟对方的决策有关。因此存在一种“博弈”竞争关系。
  • 1-2 Self-Interested Agents and Utility Theory

  • Self-Interested Agents:利己代理
    并不是说决策者只考虑自己或者伤害他人,而是指决策者对于世界状态有自己的独特看法,并且根据自己的判断理解做出决策。
  • Utility Theory :效用理论
    每个决策者都有自己的效用函数,表达了决策者对于决策的偏好,决策者做出决策都是为了最大化效用期望。
  • 1-3 Define

  • Key Ingredients 关键组成
    Players :决策者。执行决策的人。
    Actions :动作。决策者可以做的事情。
    Payoffs :回报。激励决策者的东西,决策带来的回报。

  • Two Standard Representations 两种标准表达方式
    Normal Form :分别定义Players、Actions、Payoffs。
    Extensive Form :扩展定义Timing、Information。

  • 简单的博弈论问题可以使用矩阵表达,如1-1所示。

  • 复杂问题无法用矩阵表达,如经典的 造反问题 。共有10000000个人,每个人可以选择造反或者不造反,只有达到2000000个人才算造反成功。如果造反达到人数要求,无论决策者选择什么收益都是1;如果造反没有达到人数要求,则决策者选择造反的收益是-1;如果造反没有达到人数要求,则决策者选择不造反的收益是0。
    Players: N = { 1 , . . . , 10 , 000 , 000 } N=\{1,...,10,000,000\} N = { 1 , . . . , 1 0 , 0 0 0 , 0 0 0 }
    Actions Set for player i i i A i = { R e v o l t , N o t } A_i=\{Revolt,Not\} A i = { R e v o l t , N o t }
    Utility Function for player i i i
    (1) u i ( a i ) = 1   i f { j : a j = R e v o l t } > = 2 , 000 , 000 u_i(a_i)=1 \space if \{j:a_j=Revolt\}>=2,000,000 u i ( a i ) = 1 i f { j : a j = R e v o l t } > = 2 , 0 0 0 , 0 0 0
    (2) u i ( a i ) = − 1   i f { j : a j = R e v o l t } < 2 , 000 , 000   a n d   a i = R e v o l t u_i(a_i)=-1 \space if \{j:a_j=Revolt\}<2,000,000 \space and \space a_i=Revolt u i ( a i ) = 1 i f { j : a j = R e v o l t } < 2 , 0 0 0 , 0 0 0 a n d a i = R e v o l t
    (3) u i ( a i ) = − 0   i f { j : a j = R e v o l t } < 2 , 000 , 000   a n d   a i = N o t u_i(a_i)=-0 \space if \{j:a_j=Revolt\}<2,000,000 \space and \space a_i=Not u i ( a i ) = 0 i f { j : a j = R e v o l t } < 2 , 0 0 0 , 0 0 0 a n d a i = N o t

  • 1-4 Examples

  • 囚徒困境 Prisoner’s dilemma 。故事背景:两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确凿,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。
    结果的优劣程度按照A>B>C>D排序。
    在这里插入图片描述

  • Game of Pure Competition 纯竞争博弈
    博弈的双方具有完全对立的利益。
    对于双方任意动作组合,其效用之和永远为一个常数。 ∀   a ∈ A , u 1 ( a ) + u 2 ( a ) = c \forall \space a \in A,u_1(a)+u_2(a)=c a A , u 1 ( a ) + u 2 ( a ) = c
    特殊类型: 零和博弈 。双方效用之和永远为0。
    举例说明:石头剪刀布游戏。
    在这里插入图片描述

  • Games of Cooperation 合作博弈
    博弈的多方具有相同的利益,利益之间不存在冲突。 ∀ a ∈ A , ∀ i , j , u i ( a ) = u j ( a ) \forall a\in A,\forall i,j,u_i(a)=u_j(a) a A , i , j , u i ( a ) = u j ( a )
    举例说明:过马路问题。马路两头两个人想同时通行,每个人可以选择靠左或者靠右行驶。
    在这里插入图片描述

  • 1-5 Nash Equilibrium Intro

  • Keynes Beauty Contest Game:凯恩斯选美博弈
    举办选美大赛,从1-100号候选者中选择自己认为最美的一位,获得票数最多的人获得选美冠军,投票给选美冠军的人也会得到一定的奖励。这个问题是老千层饼了,第一层的人只是自己觉得谁漂亮就选谁,比如A觉得10号最美投票给了10号;第二层的人考虑其他人的投票分布从而产生自己的决策,比如B觉得可能有很多人投票给30号,虽然自己喜欢10号也投票给30号;第三层的人觉得其他人可能也会因为考虑到第二层的因素,从而放弃自己最喜欢的转投自己认为最火爆的…这是一个无休止的猜想游戏。
  • 猜数字游戏
    每个人从1-100中选择一个整数,最后最接近平均值三分之二的人获得奖励,假设参加这项游戏的人数足够多。这个问题同样是一个千层饼问题。
    第一层的人:参赛人数足够多,我假设大家所选择的数字均匀分布,那么最后的平均值应该接近于50。那么我为了获胜应该选择的数字是 50 ∗ 2 3 = 33 50*\frac{2}{3}=33 5 0 3 2 = 3 3
    第二层的人:我想大部分人都在第一层,因此他们都选择33。那么最后的平均值应该接近于33。那么我为了获胜应该选择的数字是 33 ∗ 2 3 = 22 33*\frac{2}{3}=22 3 3 3 2 = 2 2
    第三层的人: 22 ∗ 2 3 = 11 22*\frac{2}{3}=11 2 2 3 2 = 1 1

    第n层的人:应该选择的数是0。这就得到了纳什均衡。
    美国进行过一项调查,其中2%选择了66(没读懂题的笨蛋)、5%的选择了50(第一层)、10%的选择了33(第二层)、6%选择了22(第三层)、12%的选择了0或者1(思考到了最后)。但最后的结果平均值为19,第三层左右的人获得了最终的胜利。
  • 以上两个故事告诉我们,在投资问题或者博弈问题中,我们的层数不可太高也不可太低。太低是傻子,太高聪明反被聪明误。
  • 1-6 Strategic Reasoning

  • 在其他人的决策确定的情况下,每一个决策者都是为了最大化个人的收获效用来做出决策。
  • 一旦纳什均衡建立,没有人可以通过改变决策跳出均衡而获利受益。
  • 如果某些决策者通过改变决策跳出均衡可以获利受益,那么说明纳什均衡还没有真正建立。
  • 纳什均衡是一个稳定的状态,但并不是一个最优的获利状态。
  • 1-7 Best Response and Nash Equilibrium

  • Best Response 最优响应
    如果知道其他所有人的动作,那么挑选对于自己最有利的动作就变得十分简单。
    a i 表 示 第 i 个 决 策 者 所 做 出 的 决 策 a_i表示第i个决策者所做出的决策 a i i
    a − i = { a 1 , . . . , a i − 1 , a i + 1 , . . . , a n } 表 示 除 去 a i 以 外 其 他 人 的 决 策 a_{-i}=\{a_1,...,a_{i-1},a_{i+1},...,a_n\}表示除去a_i以外其他人的决策 a i = { a 1 , . . . , a i 1 , a i + 1 , . . . , a n } a i
    a = ( a i , a − i ) a=(a_i,a_{-i}) a = ( a i , a i )
    a i ∗ ∈ B R ( a − i )   i f f ∀ a i ∈ A i , u i ( a i ∗ , a − i ) > = u i ( a i , a − i ) a_i^*\in BR(a_{-i})\space iff \forall a_i\in A_i,u_i(a_i^*,a_{-i})>=u_i(a_i,a_{-i}) a i B R ( a i ) i f f a i A i , u i ( a i , a i ) > = u i ( a i , a i )
    其中 B R ( a − i ) BR(a_{-i}) B R ( a i ) 表示已知其他决策信息后第i个决策者做出的最优响应,最优响应不一定只有一个。并且最优相应集合中的所有元素 a i ∗ a_i^* a i 都满足下列要求,当且仅当选择 a i ∗ a_i^* a i 的效用大于等于选择其他所有响应的效用。
  • Pure Strategy Nash Equilibrium 纯策略纳什均衡
    实际上我们并不知道其他人会做出何种决策,因此根据他人决策制定自己的最优响应是不现实的。
    a = { a 1 , . . . , a n } i s   a   p u r e   s t r a t e g y   N a s h   e q u i l i b r i u m   i f f   ∀ i , a i ∈ B R ( a − i ) a=\{a_1,...,a_n\}is \space a \space pure \space strategy \space Nash \space equilibrium \space iff \space \forall i,a_i\in BR(a_{-i}) a = { a 1 , . . . , a n } i s a p u r e s t r a t e g y N a s h e q u i l i b r i u m i f f i , a i B R ( a i )
  • 1-8 Nash Equilibrium of Example Games

  • 纳什均衡的定义
    给定其他决策者的决策,每个决策者都没有单独改变决策的动机。(也就是当前决策是最优决策)
    假设一共有A、B、C三个决策者,已知A、B决策下C做出最优决策 c ∗ c^* c ,已知A、C决策下B做出最优决策 b ∗ b^* b ,已知B、C决策下A做出最优决策 a ∗ a^* a ,那么 ( a ∗ , b ∗ , c ∗ ) (a^*,b^*,c^*) ( a , b , c ) 就是一个纳什均衡点。
  • 如何从决策矩阵中挑选纳什均衡点?
    看该单元格,是否左侧的值是该列左侧值的最大值,右侧的值是否是该行右侧值的最大值。
  • 纳什均衡不一定是对于全局来说最优的结果。比如囚徒困境。
  • 纳什均衡也不是自发实现的,需要有一定的沟通协商规定,总之就是直接间接获取他人的决策信息。
    在这里插入图片描述
  • 1-9 Dominant Strategies

  • Strictly\Very Weakly Dominates 决策优势、劣势关系
    s i   s t r i c t l y   d o m i n t a t e s   s i ′   i f ∀ s − i ∈ S − i , u i ( s i , s − i ) > u i ( s i ′ , s − i ) s_i \space strictly \space domintates \space s_i^{'} \space if \forall s_{-i}\in S_{-i},u_i(s_i,s_{-i})>u_i(s_i^{'},s_{-i}) s i s t r i c t l y d o m i n t a t e s s i i f s i S i , u i ( s i , s i ) > u i ( s i , s i )
    s i   v e r y   w e a k l y   d o m i n t a t e s   s i ′   i f ∀ s − i ∈ S − i , u i ( s i , s − i ) > = u i ( s i ′ , s − i ) s_i \space very \space weakly \space domintates \space s_i^{'} \space if \forall s_{-i}\in S_{-i},u_i(s_i,s_{-i})>=u_i(s_i^{'},s_{-i}) s i v e r y w e a k l y d o m i n t a t e s s i i f s i S i , u i ( s i , s i ) > = u i ( s i , s i )
    严格压制关系与轻微压制关系的区别就在于取不取等号。以 s i s_i s i 严格压制决策 s i ′ s_i^{'} s i 为例,是指无论其他决策者制定什么决策,当前决策者选择 s i s_i s i 的效用一定严格优于选择 s i ′ s_i^{'} s i
  • 如果一个决策压制其他所有决策,那么称之为 占优策略 。如果该决策严格压制每一个其他决策,那么称之为 严格占优策略 ,并且该策略唯一。 由占优策略组成的策略组合一定是纳什均衡点,全部由严格占优策略组成的策略组合一定是唯一的纳什均衡点
  • 1-10 Pareto Optimality

  • 之前对于决策的选择以及评估都是站在每个决策者的角度,现在我们跳出决策者的身份,以一个外界观察者的角度来评估决策。我们只考虑最直接的一种评估方式,如果决策组合 O O O 对于所有决策者的效用都优于决策 O ′ O^{'} O ,那么我们称 O   P a r e t o − d o m i n a t e s   O ′ O \space Pareto-dominates \space O^{'} O P a r e t o d o m i n a t e s O
    比如说 O ( 7 , 8 ) 、 O ′ ( 4 , 5 ) , 那 么 我 们 可 得 O   P a r e t o − d o m i n a t e s   O ′ O(7,8)、O^{'}(4,5),那么我们可得O \space Pareto-dominates \space O^{'} O ( 7 , 8 ) O ( 4 , 5 ) O P a r e t o d o m i n a t e s O
  • Pareto-Optimal 帕累托最优
    一个决策组合 O ∗ O^* O ,如果没有其他任何一个决策组合帕累托压制 O ∗ O^* O ,那么称该决策组合是帕累托最优。
    帕累托最优定义的并不是压制别人的能力,而是不被其他人压制。
    一场游戏中可能有多个帕累托最优决策组合。
    一场游戏中最少含有一个帕累托最优决策组合。
  • 实例分析
    在这里插入图片描述
    注意对于零和博弈问题来说,所有决策组合都是帕累托最优。
  • 2-1 Mixed Strategies and Nash Equilibrium Taste

  • 以安保设置检查关卡、攻击者制定策略攻击关卡的博弈问题来引出混合策略。
  • 2-2 Mixed Strategies and Nash Equilibrium

  • 纯策略每次决策选择的是具体的动作,而混合策略每次决策选择的是概率分布。纯策略纳什均衡是混合策略纳什均衡的一种。
  • 纯策略均衡:每个决策者都是根据已知其他决策者的选择从而做出决策,并且在已知其他决策者选择的前提下没有改变自己决策的动机。混合策略均衡:每个决策者只可以调整自己的决策分布,而自己的效用则由其他决策者的决策分布决定。
  • 在博弈游戏中,决策者每次选择固定的决策方式是最愚蠢的结果,因为竞争者会根据你的固定选择从而制定策略获利。因此决策者应该随机决策来迷惑对手,让对手猜不透你的选择。
  • 区分定义:在纯策略中每个决策者每一步决定的是一个动作 a i a_i a i ;在混合策略中每个决策者每一步决定的是一个策略 s i s_i s i ,策略包含多个动作及对应概率。针对第 i i i 个决策者所有策略的组合为 S i = { s 1 , . . . , s n } S_i=\{s_1,...,s_n\} S i = { s 1 , . . . , s n } ,针对所有决策者的策略组合为各个决策者的策略笛卡尔积 S = S 1 × . . . × S n S=S_1\times ...\times S_n S = S 1 × . . . × S n
  • 在纯策略中我们针对每个决策者的不同动作衡量效用,在混合策略中我们针对每个决策者的不同策略概率分布来衡量效用,换句话说计算 效用期望
    u i ( s ) = ∑ a ∈ A u i ( a ) P r ( a ∣ s ) , P r ( a ∣ s ) = ∏ j ∈ N s j ( a j ) u_i(s)=\sum_{a\in A}u_i(a)Pr(a|s),Pr(a|s)=\prod_{j\in N}s_j(a_j) u i ( s ) = a A u i ( a ) P r ( a s ) , P r ( a s ) = j N s j ( a j )
  • 混合策略中的最优响应以及纳什均衡
    只需要将之前的 a i a_i a i 全部替换成 s i s_i s i 即可。
    s i ∗ ∈ B R ( s − i )   i f f ∀ s i ∈ S i , u i ( s i ∗ , s − i ) > = u i ( s i , s − i ) s_i^*\in BR(s_{-i})\space iff \forall s_i\in S_i,u_i(s_i^*,s_{-i})>=u_i(s_i,s_{-i}) s i B R ( s i ) i f f s i S i , u i ( s i , s i ) > = u i ( s i , s i )
    s = { s 1 , . . . , s n } i s   a   N a s h   e q u i l i b r i u m   i f f   ∀ i , s i ∈ B R ( s − i ) s=\{s_1,...,s_n\}is \space a \space Nash \space equilibrium \space iff \space \forall i,s_i\in BR(s_{-i}) s =
  • 2.信息(information):参与者有关博弈的知识。“知己知彼,百战不殆”。 3.行动(action):参与者能够选择的变量。 4.策略(strategies):参与者在行动之前所准备好的一套完整的行动方案(预案)。 具有以下三种特点: (1)完整性 (2)多样性 (3)不可观察性 人不犯我,我不犯人;人若犯我,我必... 就是两个对象在进行某个斗争,按照某种规则,会有先手必赢和后手必赢的局面产生,我们就是要根据不同的规则去研究策略。 然后关于 博弈论 的话,常见的题目都是公平组合游戏; 公平组合游戏呢…就是游戏人数为2,二者轮流做出决策,且双方都知道游戏规则;任意一个游戏者在某一确定状态可做出的决策集合只与当前状态有关而与游戏者无关;游戏中的状态不可能多次抵达,游戏以玩家无法行动为结束,且游戏一定会在有限步后以非平局结束; ps:大部分棋类游戏都不是公平组合游戏,像是国际象棋、中国象棋、围棋、五子棋…(因为双方 博弈论 ,又称为对策论( Game Theory )、赛局理论等,既是现代数学的一个新分支,也是运筹学的一个重要学科。(摘自百度百科) 文章目录 博弈论 引言一、什么是博弈?二、巴什博奕(Bash Game )三、再来看一下引言这道题 不知大家是否还记得这道题目? 一、什么是博弈? 博弈的英文为 game ,我们可以简单把它理解为“做游戏”。 只是这个游戏有一定的规则,并且有至少两个参加者,参加者需要在遵守游戏规则的前提下想方设法让自己获取胜利。对于两名参加者,两人都足够聪明且不会出现失误,在考虑自己
    博弈论 Game Theory )一、巴什博弈(Bash Game )操作:代码:例题:1.Brave Game 2. kiki's game 二、威佐夫博弈(Wythoff Game )操作:代码:例题:1.取石子游戏三、尼姆 博弈论 (Nim Game )操作:代码:例题:1. Being a Good Boy in Spring Festival四、斐波那契 博弈论 操作:代码:例题:1. 取石子游戏五、SG函数操作:代码:例题:1. Good Luck in CET-4 Everybody!2. S-Nim 一、巴什博
    Game Theory Toolbox是matlab中的一个工具箱,可以用于 博弈论 模型的分析和求解。使用 Game Theory Toolbox可以创建博弈和解决方案,以及分析 博弈论 模型的性质和均衡。下面是 Game Theory Toolbox的基本使用步骤: 1. 导入 Game Theory Toolbox:在matlab命令窗口中输入“gttb”即可启动 Game Theory Toolbox。 2. 创建博弈模型:使用 Game Theory Toolbox的函数创建博弈模型,如nplayer、zerosum、simultaneous等函数。 3. 求解博弈均衡:使用 Game Theory Toolbox的函数求解博弈均衡,如nash、correlatedeq、minimax等函数。 4. 分析博弈性质:使用 Game Theory Toolbox的函数分析博弈性质,如range、dominant、essential等函数。 通过以上步骤,可以使用 Game Theory Toolbox进行 博弈论 模型的分析和求解。希望可以帮助你解决问题。