January 16, 2021
本文介绍 DRL 涉及 multiple agents 沟通合作解决复杂问题的方面,讨论一些 MADRL 方法,包括非平稳性、部分可观察性、连续状态和动作空间、多代理训练方案和多代理转移学习(nonstationarity, partial observability, continuous state and action spaces, multiagent training schemes, and multiagent transfer learning),及其应用。
RL 是仅关注环境、行动和奖励的学习方法,不需要预先标注数据。实用的 RL 方法包括 Q-Learning(1989),但 Q-table 受限于动作和状态空间规模。DRL(2015)被设计出来以用于解决这一问题。
Human-level control through deep reinforcement learning
Fig. 1. Q-Learning
约定策略 $\pi$ 代表状态 $s$ 下行动 $a_i$ 的概率分布。
$$ \pi=\Psi \left ({s}\right) \\=\left \lbrace{ ~p\left ({a_{i}|s}\right)~\bigg \vert ~\forall a_{i} \in \Delta _{\pi }~\wedge \sum {i}p\left ({a{i}|s}\right)=1}\right \rbrace \tag{1} $$
约定 $V_\pi(s)$ 和 $Q_\pi(s,a)$ 分别代表状态 $s$ 和状态-动作对 $(s,a)$ 的估值。
$$ V_{\pi }\left ({s}\right) = \sum {a}\pi \left ({s,a}\right)\sum {s^{\prime }}p\left ({s^{\prime }|s,a}\right)\left ({\mathop {}\mathbb {W}{s\rightarrow s^{\prime }|a} + \gamma V{\pi }\left ({s^{\prime }}\right)}\right) \tag{2} $$
$$ Q_{\pi }\left ({s,a}\right)=\sum {s^{\prime }}p\left ({s^{\prime }|s,a}\right)\Biggl ({\vphantom {\left.{+\,\,\gamma \sum {a^{\prime }} \pi \left ({s^{\prime },a^{\prime }}\right) Q{\pi }\left ({s^{\prime },a^{\prime }}\right)}\right)}\mathop {}\mathbb {W}{s\rightarrow s^{\prime }|a}} \\\qquad \qquad \qquad \,\,\,\, {+\,\,\gamma \sum {a^{\prime }} \pi \left ({s^{\prime },a^{\prime }}\right) Q{\pi }\left ({s^{\prime },a^{\prime }}\right)}\Biggr) \tag{3} $$
其中 $\mathbb {W}{s\rightarrow s^{\prime }|a}=\mathbb {E}[r{t+1}|s_t=s, a_t=a, s_{t+1}=s^{\prime }]$,代表 $s\rightarrow s^{\prime }|a$ 的奖励 $r_{t+1}$ 的期望。
$\gamma$ 是衰减系数(discount factor),一个 $[0, 1)$ 的常数,代表现在估值依赖于未来估值的程度,即 agent 有多么「farsighted」。
MC 方法基于两个假设: