动态规划

动态规划（Dynamic Programming）概述

动态规划是解决强化学习问题的一种重要方法，它通过将复杂问题分解为子问题，并存储子问题的解来避免重复计算。在强化学习中，动态规划主要用于计算最优策略和最优价值函数。

核心思想：通过"分而治之"的方式，将复杂问题分解为更小的子问题，并利用子问题的解来构建原问题的解。

计算给定策略下的状态价值函数

基于当前价值函数改进策略

交替进行策略评估和改进

直接迭代计算最优价值函数

状态空间和动作空间较小的决策问题

如机器人路径规划、资源分配等

如简单的棋盘游戏、迷宫问题等

如任务调度、库存管理等