欢迎访问 生活随笔!

凯发k8官方网

当前位置: 凯发k8官方网 > 编程资源 > 编程问答 >内容正文

编程问答

强化学习1——策略,价值函数,模型 -凯发k8官方网

发布时间:2024/10/14 编程问答 136 豆豆
凯发k8官方网 收集整理的这篇文章主要介绍了 强化学习1——策略,价值函数,模型 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

  • 强化学习——概述
    • 组成
      • 策略:行为函数
      • 价值函数:状态和行为的得分
      • 模型:整个世界的表达

组成

策略:行为函数

​ 分为两种:

​ 概率型策略:从策略π\piπ中,按照概率π(a∣s)=p(at=a∣st=s)\pi(\mathrm{a} \mid \mathrm{s})=\mathrm{p}\left(\mathrm{a}_{\mathrm{t}}=\mathrm{a} \mid \mathrm{s}_{\mathrm{t}}=\mathrm{s}\right)π(as)=p(at=ast=s)采样一个a。

​ 确定型策略:从策略π\piπ中,选择一个最大概率的策略a∗=arg⁡max⁡aπ(a∣s)a^{*}=\arg \max _{a} \pi(a \mid s)a=argmaxaπ(as)

价值函数:状态和行为的得分

​ 已知π\piπ的时候能得到多少奖励(期望平均值)

​ 分为两种:

​ 状态价值函数:衡量一个状态的价值(其实是一个状态采取所有行为后的一个价值的期望值)

vπ(s)≐eπ[gt∣st=s]=eπ[∑k=0∞γkrt k 1∣st=s],for all s∈sv_{\pi}(s) \doteq \mathbb{e}_{\pi}\left[g_{t} \mid s_{t}=s\right]=\mathbb{e}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t k 1} \mid s_{t}=s\right], \text { for all } s \in \mathcal{s}vπ(s)eπ[gtst=s]=eπ[k=0γkrtk1st=s], for all ss

​ q-函数:衡量一个状态采取一个动作后的价值(是强化学习的一个目标,最高的q-函数值对应的a就是最有策略采取的动作)

qπ(s,a)≐eπ[gt∣st=s,at=a]=eπ[∑k=0∞γkrt k 1∣st=s,at=a]q_{\pi}(s, a) \doteq \mathbb{e}_{\pi}\left[g_{t} \mid s_{t}=s, a_{t}=a\right]=\mathbb{e}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} r_{t k 1} \mid s_{t}=s, a_{t}=a\right]qπ(s,a)eπ[gtst=s,at=a]=eπ[k=0γkrtk1st=s,at=a]

模型:整个世界的表达

​ 预测下一个环境(世界,状态)

​ 两部分组成:

​ 1 状态s采取了一个策略a,有多少概率到达s′s^{\prime}s

​ 2 状态s采取了一个策略a,能得到多大的奖励
predict the next state: pss′a=p[st 1=s′∣st=s,at=a]predict the next reward: rsa=e[rt 1∣st=s,at=a]\begin{aligned} &\text { predict the next state: } \mathcal{p}_{s s^{\prime}}^{a}=\mathbb{p}\left[s_{t 1}=s^{\prime} \mid s_{t}=s, a_{t}=a\right]\\ &\text { predict the next reward: } \mathcal{r}_{s}^{a}=\mathbb{e}\left[r_{t 1} \mid s_{t}=s, a_{t}=a\right] \end{aligned}  predict the next state: pssa=p[st1=sst=s,at=a] predict the next reward: rsa=e[rt1st=s,at=a]

总结

以上是凯发k8官方网为你收集整理的强化学习1——策略,价值函数,模型的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得凯发k8官方网网站内容还不错,欢迎将凯发k8官方网推荐给好友。

网站地图