- 1 -
状态转移表
Class1 | Class2 | Class3 | Pass | Pub | TikTok | Sleep | |
---|---|---|---|---|---|---|---|
Class1 | 0.5 | 0.5 | |||||
Class2 | 0.8 | 0.2 | |||||
Class3 | 0.6 | 0.4 | |||||
Pass | 1.0 | ||||||
Pub | 0.2 | 0.4 | 0.4 | ||||
TikTok | 0.1 | 0.9 | |||||
Sleep |
episode:
- C1-C2-C3-Pass-Sleep:非常认真的学生
- C1-TicTok-TicTok-C1-C2-Sleep:第一节课走神的学生
- C1-C2-C3-Pub-C1-TicTok-TicTok-TicTok-C1-C2-C3-Pub-C3-Pass-Sleep:经常走神的学生
MDP上学案例状态函数求解
写成矩阵形式
小规模的MDP问题,可以直接求解下式
上式也就是 Bellman 方程的形式,递归形式
- 2 -
定义行动的有限集合$\mathcal A$和策略$\pi$
基于所给MDP $\left<\mathcal S,\mathcal A,\mathcal P, \mathcal R,\gamma\right>$和policy $\pi$:
得到的马尔可夫过程为$\left<\mathcal S,\mathcal P^\pi\right>$
对应策略的状态转移概率和奖励为:
因为增加了行动,如何评价行动,参考状态价值函数,我们定义行动价值函数
$\mathcal R$:
s\a | Study | Thirsty | TikTok | Sleep | Quit |
---|---|---|---|---|---|
Class1 | -2 | \ | -1 | \ | \ |
Class2 | -2 | \ | \ | 0 | \ |
Class3 | 10 | 1 | \ | \ | \ |
TikTok | \ | \ | -1 | \ | 0 |
Sleep | \ | \ | \ | \ | \ |
$\mathcal P^\pi$:
Class1 | Class2 | Class3 | TikTok | Sleep | |
---|---|---|---|---|---|
Class1 | 0.5 | 0.5 | |||
Class2 | 0.5 | 0.5 | |||
Class3 | 0.1 | 0.2 | 0.2 | 0.5 | |
TikTok | 0.5 | 0.5 | |||
Sleep |
$\mathcal R^\pi$:
Class1 | Class2 | Class3 | TikTok | Sleep |
---|---|---|---|---|
-1.5 | -1 | 5.5 | -0.5 | 0 |
利用 Bellman 公式
计算出了当前策略下的价值
- 3 -
最优价值函数 Optimal Value Function
通过计算最好的选择,实现对状态的好坏进行评价,当得到最优价值函数后,MDP问题就解决了。
几个 Bellman 方程:
策略提升:
最优策略:
价值迭代推导过程:
value-base 方法
估计价值函数
Monte-Carlo:
Temporal Difference:
Incremental every-visit Monte-Carlo
TD(0)
Sarsa
Importance Sampling
Q learning
行动策略 $\mu$ 、借鉴(评价)策略 $\pi$