导航菜单

时序差分学习(Temporal Difference Learning)

时序差分学习概述

基本概念

时序差分(TD)学习是一类结合了动态规划和蒙特卡洛思想的强化学习方法。它通过当前状态和下一个状态的估计来更新价值函数,无需完整回合即可学习。

核心思想: 通过"当前估计"与"下一个估计"之间的差值(TD误差)来修正价值。

状态s动作a奖励r下状态s'

主要类型与算法流程

1. TD(0)预测

利用一步时序差分更新状态价值函数

2. SARSA

基于当前策略的在线控制方法

3. Q-Learning

基于最优动作的离线控制方法

初始化V采样(s,a,r,s')TD更新下一个回合

应用场景

博弈游戏

如围棋、国际象棋等回合制游戏

机器人控制

路径规划、动作序列学习

推荐系统

用户行为序列分析

金融市场

投资组合优化、风险评估