强化学习中的策略梯度算法

在强化学习中, 求解策略有两类方法:基于值函数的方法与基于策略的方法。基于值函数的方法包括SARSA, Q-Learning和Deep Q-Learning, 在动作数据有限时, 这种方法可以通过迭代得到更好的确定性策略。 但是在现实中, 存在许多状态非离散的场景, 而且, 有时随机性的策略更加重要。 基于策略的方法此时是更好的选择。

在最近几年, 伴随着强化学习不断在各领域攻城略地,基于策略的方法也发展迅猛, 从最原始的REINFORCE, 到AC, A2C, A3C, Trust Region以及DDPG和PPO, 策略算法训练不稳定、难以收敛、容易困在局部最优解这些问题一步一步有了更好的解法。

REINFORCE

REINFORCE是由Williams等人于1992年提出的基于Monte Carlo采样的回合制算法:根据当前的策略函数采样出一条轨迹, 然后计算各个step的回报, 再根据梯度上升法更新策略参数。

REINFORCE with Baseline

带Baseline的REINFORCE算法

A2C

A3C

DDPG

PPO

Illustration2Vec: A Semantic Vector Representation of Illustrations Learning Groupwise Scoring Functions Using Deep Neural Networks

Комментарии

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×