当前位置：凯发k8官方网 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习1——策略，价值函数，模型 -凯发k8官方网

发布时间：2024/10/14 编程问答 136 豆豆

凯发k8官方网收集整理的这篇文章主要介绍了强化学习1——策略，价值函数，模型小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

强化学习——概述
- 组成
- - 策略：行为函数
  - 价值函数：状态和行为的得分
  - 模型：整个世界的表达

组成

策略：行为函数

分为两种：

概率型策略：从策略 $π\pi$ 中，按照概率 $π(a∣s)=p(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{p}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)$ 采样一个a。

确定型策略：从策略 $π\pi$ 中，选择一个最大概率的策略 $a∗=arg⁡max⁡aπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)$

价值函数：状态和行为的得分

已知 $π\pi$ 的时候能得到多少奖励（期望平均值）

分为两种：

状态价值函数：衡量一个状态的价值（其实是一个状态采取所有行为后的一个价值的期望值）

$s∈sv_{\pi}(s) \doteq \mathbb{e}_{\pi}\left[g_{t} \mid s_{t}=s\right]=\mathbb{e}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t k 1} \mid s_{t}=s\right], \text { for all } s \in \mathcal{s}$

q-函数：衡量一个状态采取一个动作后的价值（是强化学习的一个目标，最高的q-函数值对应的a就是最有策略采取的动作）

$1∣st=s,at=a]q_{\pi}(s, a) \doteq \mathbb{e}_{\pi}\left[g_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{e}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t k 1} \mid s_{t}=s, a_{t}=a\right]$

模型：整个世界的表达

预测下一个环境（世界，状态）

两部分组成：

1 状态s采取了一个策略a，有多少概率到达 $s′s^{\prime}$ 。

2 状态s采取了一个策略a，能得到多大的奖励
$1∣st=s,at=a]\begin{aligned} &\text { predict the next state: } \mathcal{p}_{s s^{\prime}}^{a}=\mathbb{p}\left[s_{t 1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right]\\ &\text { predict the next reward: } \mathcal{r}_{s}^{a}=\mathbb{e}\left[r_{t 1} \mid s_{t}=s, a_{t}=a\right] \end{aligned}$

总结

以上是凯发k8官方网为你收集整理的强化学习1——策略，价值函数，模型的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得凯发k8官方网网站内容还不错，欢迎将凯发k8官方网推荐给好友。

上一篇：线性规划——规范型，标准型，基阵、基本解
下一篇：最优化——单纯形法学习心得