在强化学习中, 求解策略有两类方法:基于值函数的方法与基于策略的方法。基于值函数的方法包括SARSA, Q-Learning和Deep Q-Learning, 在动作数据有限时, 这种方法可以通过迭代得到更好的确定性策略。 但是在现实中, 存在许多状态非离散的场景, 而且, 有时随机性的策略更加重要。 基于策略的方法此时是更好的选择。
在最近几年, 伴随着强化学习不断在各领域攻城略地,基于策略的方法也发展迅猛, 从最原始的REINFORCE, 到AC, A2C, A3C, Trust Region以及DDPG和PPO, 策略算法训练不稳定、难以收敛、容易困在局部最优解这些问题一步一步有了更好的解法。
REINFORCE
REINFORCE是由Williams等人于1992年提出的基于Monte Carlo采样的回合制算法:根据当前的策略函数采样出一条轨迹, 然后计算各个step的回报, 再根据梯度上升法更新策略参数。
REINFORCE with Baseline
带Baseline的REINFORCE算法
Комментарии