【控制】《多智能体机器人系统信息融合与协调》范波老师-第7章-基于 Markov 对策的多 Agent 协调
第6章回到目录第8章第7章-基于 Markov 对策的多 Agent 协调7.1 引言7.2 多 Agent 交互的协调与博弈分析7.2.1 多 Agent 协调与博弈的性质7.2.2 多 Agent 协调失败的处理7.3 多 Agent 冲突博弈强化学习模型7.3.1 多 Agent 冲突博弈7.3.2 最优策略7.3.3 基于后悔值的 Q 学习模型7.4 Nash-Q 学习7.5 零和 Mar
第6章 | 回到目录 | 第8章 |
---|
第7章-基于 Markov 对策的多 Agent 协调
7.1 引言
Nash 均衡是 Markov 对策框架的核心概念,为 Agent 协调的一个标尺。
在博弈论中,纳什均衡(英语:Nash equilibrium,或称纳什均衡点)是指在包含两个或以上参与者的非合作博弈(Non-cooperative game)中,假设每个参与者都知道其他参与者的均衡策略的情况下,没有参与者可以透过改变自身策略使自身受益时的一个概念解。该术语以约翰·福布斯·纳什命名。在博弈论中,如果每个参与者都选择了自己的策略,并且没有玩家可以透过改变策略而其他参与者保持不变而获益,那么当前的策略选择的集合及其相应的结果构成了纳什均衡。
From: 纳什均衡-Wiki百科
Nash 均衡,纳什均衡(Nash Equilibrium)。该理论是由著名的经济学家,博弈论创始人,诺贝尔奖获得者约翰·纳什提出的,也就是电影《美丽心灵》的男主角原型。该理论是说:在非合作类博弈中,存在一种策略组合,使得每个参与人的策略是对其他参与人策略的最优反应。如果参与者当前选择的策略形成了“纳什均衡”,那么对于任何一位参与者来说,单方更改自己的策略不会带来任何好处。
约翰·纳什证明了在每个参与者都只有有限种策略选择,并允许混合策略的前提下,纳什均衡一定存在。上边的解释还是有点拗口,这里通过几个例子,更直观的理解一下这个理论。
From: 通过几个例子理解博弈论与纳什均衡
7.2 多 Agent 交互的协调与博弈分析
7.2.1 多 Agent 协调与博弈的性质
7.2.2 多 Agent 协调失败的处理
7.3 多 Agent 冲突博弈强化学习模型
协调博弈,是指在博弈所定义的收益空间中,任何均衡点都符合以下条件:即
(1)在给定其他参与人行为策略的条件下,没有人有激励改变其行为策略;
(2)没有参与者希望其他参与者会愿意改变其行为。
From: 协调博弈-百度百科
7.3.1 多 Agent 冲突博弈
7.3.2 最优策略
7.3.3 基于后悔值的 Q 学习模型
7.4 Nash-Q 学习
7.5 零和 Markov 对策和团队 Markov 对策
7.5.1 零和 Markov 对策
7.5.2 团队 Markov 对策
7.6 基于 Markov 对策的多 Agent 协调策略
7.6.1 对策框架
7.6.2 Team 级对策
7.6.3 Member 级对策
7.6.4 仿真实验
7.7 小结
更多推荐
所有评论(0)