强化学习中的策略梯度算法

Dec 14 2018 2 minutes de lectura (Alrededor de 322 palabras)

在强化学习中，求解策略有两类方法：基于值函数的方法与基于策略的方法。基于值函数的方法包括SARSA, Q-Learning和Deep Q-Learning, 在动作数据有限时，这种方法可以通过迭代得到更好的确定性策略。但是在现实中，存在许多状态非离散的场景，而且，有时随机性的策略更加重要。基于策略的方法此时是更好的选择。

在最近几年，伴随着强化学习不断在各领域攻城略地，基于策略的方法也发展迅猛，从最原始的REINFORCE, 到AC, A2C, A3C, Trust Region以及DDPG和PPO, 策略算法训练不稳定、难以收敛、容易困在局部最优解这些问题一步一步有了更好的解法。

REINFORCE

REINFORCE是由Williams等人于1992年提出的基于Monte Carlo采样的回合制算法：根据当前的策略函数采样出一条轨迹，然后计算各个step的回报，再根据梯度上升法更新策略参数。

强化学习中的策略梯度算法

REINFORCE

REINFORCE with Baseline

A2C

A3C

DDPG

PPO

Комментарии

Your browser is out-of-date!