January 16, 2021

Abstract

本文介绍 DRL 涉及 multiple agents 沟通合作解决复杂问题的方面,讨论一些 MADRL 方法,包括非平稳性、部分可观察性、连续状态和动作空间、多代理训练方案和多代理转移学习(nonstationarity, partial observability, continuous state and action spaces, multiagent training schemes, and multiagent transfer learning),及其应用。

1. Introduction

RL 是仅关注环境、行动和奖励的学习方法,不需要预先标注数据。实用的 RL 方法包括 Q-Learning(1989),但 Q-table 受限于动作和状态空间规模。DRL(2015)被设计出来以用于解决这一问题。

Human-level control through deep reinforcement learning

Fig. 1. Q-Learning

Fig. 1. Q-Learning

2. Background: Reinforcement Learning

A. Preliminary

约定策略 $\pi$ 代表状态 $s$ 下行动 $a_i$ 的概率分布。

$$ \pi=\Psi \left ({s}\right) \\=\left \lbrace{ ~p\left ({a_{i}|s}\right)~\bigg \vert ~\forall a_{i} \in \Delta _{\pi }~\wedge \sum {i}p\left ({a{i}|s}\right)=1}\right \rbrace \tag{1} $$

B. Bellman Equation

约定 $V_\pi(s)$ 和 $Q_\pi(s,a)$ 分别代表状态 $s$ 和状态-动作对 $(s,a)$ 的估值。

$$ V_{\pi }\left ({s}\right) = \sum {a}\pi \left ({s,a}\right)\sum {s^{\prime }}p\left ({s^{\prime }|s,a}\right)\left ({\mathop {}\mathbb {W}{s\rightarrow s^{\prime }|a} + \gamma V{\pi }\left ({s^{\prime }}\right)}\right) \tag{2} $$

$$ Q_{\pi }\left ({s,a}\right)=\sum {s^{\prime }}p\left ({s^{\prime }|s,a}\right)\Biggl ({\vphantom {\left.{+\,\,\gamma \sum {a^{\prime }} \pi \left ({s^{\prime },a^{\prime }}\right) Q{\pi }\left ({s^{\prime },a^{\prime }}\right)}\right)}\mathop {}\mathbb {W}{s\rightarrow s^{\prime }|a}} \\\qquad \qquad \qquad \,\,\,\, {+\,\,\gamma \sum {a^{\prime }} \pi \left ({s^{\prime },a^{\prime }}\right) Q{\pi }\left ({s^{\prime },a^{\prime }}\right)}\Biggr) \tag{3} $$

其中 $\mathbb {W}{s\rightarrow s^{\prime }|a}=\mathbb {E}[r{t+1}|s_t=s, a_t=a, s_{t+1}=s^{\prime }]$,代表 $s\rightarrow s^{\prime }|a$ 的奖励 $r_{t+1}$ 的期望。

$\gamma$ 是衰减系数(discount factor),一个 $[0, 1)$ 的常数,代表现在估值依赖于未来估值的程度,即 agent 有多么「farsighted」。

C. RL Methods

1) Monte-Carlo Method:

MC 方法基于两个假设:

  1. 事件(episodes)发生次数很大;
  2. 每个状态和动作被访问很多次。