导航菜单

策略梯度

策略梯度概述

基本概念

策略梯度是一种直接优化策略的方法,通过梯度上升来最大化期望回报。 它适用于连续动作空间和离散动作空间。

核心思想:通过梯度上升来优化策略,以最大化期望回报。

策略π动作a奖励r梯度更新

算法原理

1. 策略梯度公式

∇J(θ) = E[∇log(π(a|s)) * R]

2. 参数说明

θ: 策略参数,R: 回报

3. 探索策略

使用随机策略进行探索

4. 收敛性

在满足条件下保证收敛到最优策略

选择动作执行动作观察奖励更新策略

应用场景

游戏AI

如Atari游戏、棋类游戏等

机器人控制

路径规划、动作控制

资源调度

任务分配、负载均衡

推荐系统

个性化推荐、广告投放