充电续航 | UCL 汪军教授《Multi-agent AI》课程
1. 课 程 简 介
UCL COMP0124: Multi-agent Artificial Intelligence 课程主要介绍多智能体机器学习。该课程将机器学习的研究与博弈论和经济学的研究相结合,包括博弈论、拍卖理论、算法机制设计、多智能体(深度)强化学习等主题。同时还将覆盖和讨论相关的实际应用,包括在线广告、在线拍卖、生成模型的对抗训练、机器人规划以及玩在线游戏的智能体。多智能体学习在多个领域中均有体现,多智能体间不仅能与环境相互作用,而且彼此相互作用。因此,相关应用也越来越多,比如无人机群的控制和仓库机器人的合作,以及分布式传感器网络/交通的优化以及机器竞标。
2. 讲 师 简 介
汪军 ,伦敦大学学院(UCL)计算机系教授,阿兰·图灵研究所 Turing Fellow,华为诺亚方舟实验室决策推理首席顾问。主要研究智能信息系统,包括机器学习、强化学习、多智能体,数据挖掘、计算广告学、推荐系统等。已发表了 120 多篇学术论文,出版两本学术专著,多次获得最佳论文奖。
3. 视 频 合 集
本次课程共20个课时,通过下方链接观看课程,快来一起学习吧!
4. 讲 义 下 载
RLChina是由国内外强化学习学者联合发起的民间学术组织,主要活动包括举办强化学习线上公开课、强化学习线上研讨会等,旨在搭建强化学习学术界、产业界和广大爱好者之间的桥梁。B站视频简介中获取讲义下载链接。
5.课 程 目 录
- 课程1: 博弈论基础介绍
- 博弈论的基本概念
- 纯策略纳什均衡
- 混合策略纳什均衡
- 纳什均衡的存在性证明
- 古诺双寡头模型
- 课程2: 更多博弈形式
- 重复博弈(Repeated Games)
- 扩展形式的博弈(Extensive-form game)
- 势博弈(Potential Game)
- 课程3: 纳什均衡
- 零和博弈及纳什均衡计算
- 极大极小博弈(Minmax Game)介绍
- 纳什均衡的线性规划解法
- 线性互补问题
- Lemke–Howson 算法求解线性互补问题
- 课程4: 贝叶斯博弈与拍卖理论
- 贝叶斯博弈(Bayesian Game)
- 在线拍卖的设置与步骤
- 拍卖模式:一口价拍卖与密封式拍卖
- 竞价策略与纳什均衡
- 课程5: 神经网络与深度学习
- 深度学习基础
- 词嵌入
- 深度神经网络层
- 卷积神经网络
- 循环神经网络
- 网络信息检索
- 表征学习
- 深度强化学习
- 课程6: 基于值函数的单智能体强化学习
- 强化学习基础
- Model-based 方法:马尔科夫决策过程,动态规划求解
- Model-free方法:蒙特卡洛,时序差分,Q-learning
- 深度强化学习实例:Atari,Alpha Go
- 课程7: 多智能体强化学习(一)
- 多智能体强化学习介绍及基本概念
- 值迭代与策略迭代
- 均衡学习:纳什-Q,Minmax-Q,Friend-Foe-Q
- 最佳对策:JAL与对手建模,梯度提升,Wolf-IGA
- 课程8: 基于策略的单智能体强化学习
- 策略梯度
- 策略梯度理论证明
- 函数近似
- 课程9: 多智能体强化学习(二)
- 策略预测的IGA
- 动态系统的梯度提升优化
- 虚拟博弈
- 理性学习
- 演化博弈论
- 复制动态方程
- 课程10: 多智能体强化学习(三):
- Emergent behaviours
- 智能体建模
- 多智能体通信
- 多智能体合作
- Many-agent 学习
编辑 :林舒,吴晓艺,张海峰