时序差分学习(Temporal Difference Learning)
时序差分学习概述
基本概念
时序差分(TD)学习是一类结合了动态规划和蒙特卡洛思想的强化学习方法。它通过当前状态和下一个状态的估计来更新价值函数,无需完整回合即可学习。
核心思想: 通过"当前估计"与"下一个估计"之间的差值(TD误差)来修正价值。
主要类型与算法流程
1. TD(0)预测
利用一步时序差分更新状态价值函数
2. SARSA
基于当前策略的在线控制方法
3. Q-Learning
基于最优动作的离线控制方法
应用场景
博弈游戏
如围棋、国际象棋等回合制游戏
机器人控制
路径规划、动作序列学习
推荐系统
用户行为序列分析
金融市场
投资组合优化、风险评估