Distributionally Robust MDP求解

原问题

一个DRMDP（s-rec）可以表示为：

$\begin{align} \sup_{\pi(\cdot|s)\in\Delta(\mathcal{A})}~&\inf_{P_s}\sum_{a\in\mathcal{A}}\pi(a|s)\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]\\ {\rm s.t.}~ &\sum_{a\in\mathcal{A}}D_f(P_{s,a}\|\overline{P}_{s,a})\leq |\mathcal{A}|\rho\\ &P_{s,a}\in\Delta(\mathcal{S}) \quad\text{for all~} a \in \mathcal{A} \end{align}$

这里我们假设 $R\in\mathbb{R}^{|\mathcal{S}|\times|\mathcal{A}|\times|\mathcal{S}|}$ ， $R(s_t,a_t,s_{t+1})$ 由当前时刻的状态，动作和下一时刻的状态决定。

由于目标函数对于 $P_s$ 和 $\pi$ 都是线性的，因此可以应用Sion 极小极大定理来交换极小和极大的顺序。经过交换之后，问题转化为：

$\begin{align*} \inf_{P_s}~&\max_{a\in\mathcal{A}}\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]\\ {\rm s.t.}~ &\sum_{a\in\mathcal{A}}D_f(P_{s,a}\|\overline{P}_{s,a})\leq |\mathcal{A}|\rho\\ &P_{s,a}\in\Delta(\mathcal{S}) \quad\text{for all~} a \in \mathcal{A} \end{align*}$

如何理解经过极大极小定理之后随机策略变为了确定性策略：一个简单的例子

假设我们只考虑一步决策，并且设置奖励函数为 $R(\cdot,\cdot,1) = 1$ 和 $R(\cdot,\cdot,2) = 0$ （只要到达状态1就给1点奖励）。假设动作的概率为 $p_1 = 0.8$ 和 $p_2 = 0.6$ ， $\rho=0.3$ ，使用 $L_1$ 距离，则原问题可以简化为：

$\begin{align*} \sup_{\mathbf{d}\in\Delta(\mathcal{A})}~&\inf_{\mathbf{p}}\mathbf{d}^\top \mathbf{p}\\ {\rm s.t.}~ &\sum_{a\in\mathcal{A}}\left|p_a-\overline{p}_{a}\right|\leq |\mathcal{A}|\rho\\ &p_{a}\in\Delta(\mathcal{S}) \end{align*}$

这里的目标是最优化两个概率向量 $\mathbf{d}$ 和 $\mathbf{p}$ 。当 $d_1 \geq d_2$ （即 $d_1 \geq 0.5$ ）时， $\inf_\mathbf{p}$ 将会将所有的budget（预算）用于减小 $p_1$ ，而当 $d_1 < d_2$ （即 $d_1 < 0.5$ ）时， $\inf_\mathbf{p}$ 会将所有的 budget 用于减小 $p_2$ 。因此，优化结果可以表达为：

$\inf_{\mathbf{p}}\mathbf{d}^\top\mathbf{p} = \begin{cases} d_1p_1+d_2(p_2-0.3)=0.5d_1+0.3,&d_1<0.5\\ d_1(p_1-0.3)+d_2p_2=-0.1d_1+0.6,&d_1\geq 0.5 \end{cases}$

因此，当 $d_1 = 0.5$ 时取得到最大值。最优的策略为 $\pi^* = [0.5, 0.5]$ 。

通过交换极大和极小的顺序，我们可以得到以下问题：

$\begin{align*} \inf_{\mathbf{p}}~&\max_{a\in\mathcal{A}}~p_a\\ {\rm s.t.}~ &\sum_{a\in\mathcal{A}}\left|p_a-\overline{p}_{a}\right|\leq |\mathcal{A}|\rho\\ &p_{a}\in\Delta(\mathcal{S}) \end{align*}$

此时， $\inf\mathbf{p}$ 会使 $p_1,p_2$ 同样的小，即 $p_1 = 0.55$ （对应的 budget 为 0.5）和 $p_2 = 0.55$ （对应的 budget 为 0.1），总的 budget 为 0.6。

如果不使得 $p_1,p_2$ 同样小，比如 $p_1=0.5,p_2=0.6$ ，则policy会选择0.6，把 $p_1$ 降低到0.5的budget一定程度上被“浪费了”

最终得到的最优值都是0.55，但 $\pi^*$ 在max-min中是 $[0.5,0.5]$ ，而在min-max中是 $[1,0]$ 或 $[0,1]$ 。

bisection 算法

Chin Pang Ho, Marek Petrik, Wolfram Wiesemann . Fast Bellman Updates for Robust MDPs. (2018)[pdf]

Recall that，交换完之后的优化问题为：

$\begin{align*} \inf_{P_s}~&\max_{a\in\mathcal{A}}\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]\\ {\rm s.t.}~ &\sum_{a\in\mathcal{A}}D_f(P_{s,a}\|\overline{P}_{s,a})\leq |\mathcal{A}|\rho\\ &P_{s,a}\in\Delta(\mathcal{S})\quad\text{for all~} a \in \mathcal{A} \end{align*}$

由于此时 $\pi$ 是一个确定性策略， $\pi$ 只会选择 $\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]$ 中最大的一个。因此adversary 要改变 $P_{s}$ 来均匀地降低所有动作下的收益（如前面例子中所提到的那样）。令

$u = \inf_{P_s}~\max_{a\in\mathcal{A}}\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]$

此时 $P_s^*$ 满足 $\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]$ 对于所有 $a$ 均相等。令 $\xi$ 表示budget大小，定义

$\begin{align*} q_a(\xi) =~\inf_{P_{s,a}\in\Delta(\mathcal{S})}&~\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]\\ {\rm s.t.}&~D_f(P_{s,a}\|\overline{P}_{s,a})\leq \xi_a \end{align*}$

随着 $\xi$ 增加， $q_a(\xi)$ 会减小。下图是一个示例，假设我们有3个动作，adversary需要将每个 $q_a$ 都调整到恰好等于 $u$ （ $\xi_a=0$ 时比 $u$ 小的就不用调了），则用到的全部预算为 $\xi_1+\xi_2+\xi_3$ 。

经过以上过程，如果我们知道每个动作的 $\xi_a$ ，我们就可以算出 $q_a(\xi_a)$ ，从而算出 $u$ 。但我们需要的是从 $\sum_{a\in\mathcal{A}}q_a(\xi_a)\leq|\mathcal A|\rho$ 以及最优值所有 $q_a(\xi_a)$ 都相等算出 $u$ 。

bisection的思路就是二分法选择 $u$ 的值，然后检测 $\sum_a \xi_a$ 是否满足约束条件。如果 $\sum_a \xi_a>|\mathcal A|\rho$ ，则表明 $u$ 小了，反之 $u$ 大了。剩下的问题就是我们不知道给定 $u$ ， $\xi_a$ 是多少，所以我们要求 $u=q_{s,a}(\xi_a)$ 的反函数 $\xi_a = q^{-1}_{s,a}(u)$ ：

$\begin{align*} \min_{P_{s,a}}~&D_f(P_{s,a}\|\overline{P}_{s,a})\\ {\rm s.t.}~&\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v(S)\right]\leq u\\ &P_{s,a}\in\Delta(\mathcal{S})\quad \text{for all~} a \in \mathcal{A} \end{align*}$

$q_{s,a}^{-1}(u)$ 的对偶问题

Ho, Chin Pang, Marek Petrik, and Wolfram Wiesemann. Robust $\phi $-Divergence MDPs. (2022) [pdf]

由于以上问题解决起来还是比较困难，所以我们继续求上述问题的对偶问题。这里先直接给出对偶问题的形式：

$\max_{\lambda\in\mathbb{R}_+,\nu\in\mathbb{R}}~-\lambda u+\nu -\mathbb{E}_{\overline{P}_{s,a}}\left[f^*\left(-\lambda\left(R(s,a,S)+\gamma v(S)\right)+\nu\right)\right]$

KL

令 $w_{s,a}(S)=R(s,a,S)+\gamma v(S)$ ， $w_{s,a,\min}=\min_{P_{s,a}\geq 0}w_{s,a}$ ，由于求解过程中， $\lambda$ 可能趋于0所以会出现指数爆炸的数值问题，因此需要用数值稳定版本进行求解。

对于 $KL$ 散度，对偶问题为：

$\max_{\lambda\in\mathbb{R}_+}f(\lambda) = \max_{\lambda\in\mathbb{R}_+} - \lambda u-\log\mathbb E_{\overline{P}_{s,a}}\left[e^{-\lambda w_{s,a}}\right].$

robust version

$\max_{\lambda\in\mathbb{R}_+} - \lambda u-\log \mathbb E_{\overline P_{s,a}}e^{-\lambda (w_{s,a}-w_{s,a,\min})} +\lambda w_{s,a,\min}$

梯度为：

$\frac{\partial f}{\partial \lambda} = -u+\frac{\mathbb{E}_{\overline{P}_{s,a}}\left[ w_{s,a}\cdot e^{-\lambda w_{s,a}}\right]}{\mathbb{E}_{\overline{P}_{s,a}}\left[e^{-\lambda w_{s,a}}\right]}$

robust version

$\frac{\partial f}{\partial \lambda} = -u+\frac{\mathbb E_{\overline P_{s,a}}\left[w_{s,a}\cdot e^{-\lambda (w_{s,a}-w_{s,a,\min})}\right]}{\mathbb E_{\overline P_{s,a}}\left[e^{-\lambda (w_{s,a}-w_{s,a,\min})}\right]}$

注意到

$\lambda \in \left[0,\log \left(\frac{1}{\min \overline{P}_{s,a}}\right)\cdot \frac{1}{u-\min w}\right]$

又由于 $f$ 是个凹函数，因此可以用二分法来寻找最大值，如果梯度大于0，则表明 $\lambda^*$ 在右侧，反正则在左侧。

proof

$\begin{align*} &\lambda_{\max} =\log \left(\frac{1}{\min \overline{P}_{s,a}}\right)\cdot \frac{1}{u-\min w}\\ &\Longleftrightarrow \overline{P}_{s,a,\min} \cdot \exp\left(\lambda_{\max}(u-w_{\min})\right) = 1\\ &\Longrightarrow \sum_{s^\prime\in\mathcal{S}}\overline{P}_{s,a}(s^{\prime})\cdot\exp\left(\lambda_{\max}(u-w(s^\prime))\right)\geq 1\\ &\Longleftrightarrow \sum_{s^\prime\in\mathcal{S}}\overline{P}_{s,a}(s^{\prime})\cdot\exp\left(-\lambda_{\max} w(s^\prime)\right)\geq \exp(-\lambda_{\max} u)\\ &\Longleftrightarrow \log\left( \sum_{s^\prime\in\mathcal{S}}\overline{P}_{s,a}(s^{\prime})\cdot\exp\left(-\lambda_{\max} w(s^\prime)\right) \right)\geq -\lambda_{\max} u\\ &\Longleftrightarrow f(\lambda_{\max})\leq 0 \end{align*}$

由于 $f$ 是个凹函数， $f$ 先增后减且 $f(0)=0$ ，所以 $f(\lambda_{\max})\leq 0$ 表明 $\lambda_{\max}>\lambda^*$ 。

policy

在求解出 $v^*$ 之后，还要反过来求解policy。我们通过对偶问题来求解policy。由于投影到 $\mathbb{R}_{+}$ 和 $\Delta(\cdot)$ 都比较方便，所以可以使用投影梯度法。分别计算对 $\lambda$ 和 $d_a\equiv\pi(a|s)$ 的梯度。

$\sup_{\pi\in\Delta(\mathcal{A}),\lambda\geq 0}\left(-\lambda|\mathcal{A}|\rho-\sum_{a\in\mathcal{A}}\lambda\log\mathbb{E}_{\overline{P}_{s,a}}\left[\exp\left(-\frac{\pi(a|s)(R(s,a,S)+\gamma v(S))}{\lambda}\right)\right]\right)$

$\frac{\partial f}{\partial \lambda} = - |\mathcal{A}| \rho - \sum_{a \in \mathcal{A}} \left[ \log \mathbb{E}_{P_{s,a}} \left[ e^{-d_aw_{s,a}/\lambda} \right] + \frac{1}{\lambda} \frac{\mathbb{E}_{P_{s,a}} \left[d_aw_{s,a} e^{-d_aw_{s,a}/\lambda} \right]}{\mathbb{E}_{P_{s,a}} \left[ e^{-d_aw_{s,a}/\lambda} \right]} \right].$

robust version

$\begin{align*} \frac{\partial f}{\partial \lambda} &= - |\mathcal{A}| \rho - \sum_{a \in \mathcal{A}} \left[ \log \mathbb{E}_{P_{s,a}} \left[ e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda}\right]-\frac{d_aw_{s,a,\min}}{\lambda} + \frac{1}{\lambda} \frac{\mathbb{E}_{P_{s,a}} \left[d_aw_{s,a} e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda} \right]}{\mathbb{E}_{P_{s,a}} \left[ e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda} \right]} \right].\\ &=- |\mathcal{A}| \rho - \sum_{a \in \mathcal{A}} \left[ \log \mathbb{E}_{P_{s,a}} \left[ e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda}\right]+ \frac{1}{\lambda} \frac{\mathbb{E}_{P_{s,a}} \left[d_a(w_{s,a}-w_{s,a,\min})\cdot e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda} \right]}{\mathbb{E}_{P_{s,a}} \left[ e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda} \right]} \right]. \end{align*}$

$\frac{\partial f}{\partial d_a} = \frac{\mathbb E_{\overline P_{s,a}}\left[w_{s,a}e^{-d_aw_{s,a}/\lambda}\right]}{\mathbb E_{\overline P_{s,a}}\left[e^{-d_aw_{s,a}/\lambda}\right]}$

robust version

$\frac{\partial f}{\partial d_a} = \frac{\mathbb E_{\overline P_{s,a}}\left[w_{s,a}e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda}\right]}{\mathbb E_{\overline P_{s,a}}\left[e^{-d_a(w_{s,a}-w_{s,a,\min})/\lambda}\right]}$

投影到单纯形上：

Projection onto the simplex code

Yunmei Chen and Xiaojing Ye, Projection Onto A Simplex

其它：sa-rec求解方法

$Q_{t+1}(s,a)=\inf_{D_f(P_{s,a}\|\overline{P}_{s,a})\leq\rho}~\mathbb{E}_{P_{s,a}}\left[R(s,a,S)+\gamma v_t(S)\right].$

对偶问题

$\sup_{\lambda\geqslant0}-\lambda\log\mathbb E_{\overline{P}_{s,a}}\left[\exp\left(-\frac{R(s,a,S)+\gamma v(S)}{\lambda}\right)\right]-\lambda\rho.$

同样地，令 $w_{s,a}(S)=R(s,a,S)+\gamma v(S)$ ， $w_{s,a,\min}=\min_{P_{s,a}\geq 0}w_{s,a}$ ，

robust version

$\sup_{\lambda\geqslant0}-\lambda\log\mathbb E_{\overline{P}_{s,a}}\left[e^{-(w_{s,a}-w_{s,a,\min})/\lambda}\right]+w_{s,a,\min}-\lambda\rho.$

求导

$\frac{\partial \mathcal f}{\partial \lambda} = -\rho -\left[ \log \mathbb{E}_{\overline{P}_{s,a}} \left[ e^{-w_{s,a}/\lambda} \right] + \frac{1}{\lambda} \frac{\mathbb{E}_{\overline{P}_{s,a}} \left[w_{s,a} e^{-w_{s,a}/\lambda} \right]}{\mathbb{E}_{\overline{P}_{s,a}} \left[ e^{-w_{s,a}/\lambda} \right]} \right]$

robust version

$\begin{align*} \frac{\partial \mathcal L}{\partial \lambda} &= -\rho -\left[ \log \mathbb{E}_{\overline{P}_{s,a}} e^{-(w_{s,a}-w_{s,a,\min})/\lambda}-\frac{w_{s,a,\min}}{\lambda} \right]\\ &- \frac{1}{\lambda} \frac{\mathbb{E}_{\overline{P}_{s,a}} \left[w_{s,a} e^{-(w_{s,a}-w_{s,a,\min})/\lambda} \right]}{\mathbb{E}_{\overline{P}_{s,a}} \left[ e^{-(w_{s,a}-w_{s,a,\min})/\lambda} \right]} \end{align*}$

当 $\lambda \rightarrow 0$

$f(\lambda)=\min_{\overline P_{s,a}(s^\prime)>0} R_{s,a}(s^\prime) + \gamma v(s^\prime)$

$\frac{df}{d\lambda}=-\rho -\left[\log P_{s,a}(s_{\min})-\frac{\min w_{s,a}}{\lambda}+\frac{\min w_{s,a}}{\lambda}\right]=-\rho - \log P_{s,a}(s_{\min})$

由于

$\lambda^*\in[0,\frac{1}{\rho(1-\gamma)}]$

因此类似地，可以使用二分法求解

原问题

bisection 算法

qs,a−1(u)q_{s,a}^{-1}(u)qs,a−1​(u)的对偶问题

KL

policy

其它：sa-rec求解方法

$q_{s,a}^{-1}(u)$ 的对偶问题