RL基础分享 (1)

- 1 -

状态转移表

Class1 Class2 Class3 Pass Pub TikTok Sleep
Class1 0.5 0.5
Class2 0.8 0.2
Class3 0.6 0.4
Pass 1.0
Pub 0.2 0.4 0.4
TikTok 0.1 0.9
Sleep

episode:

  • C1-C2-C3-Pass-Sleep:非常认真的学生
  • C1-TicTok-TicTok-C1-C2-Sleep:第一节课走神的学生
  • C1-C2-C3-Pub-C1-TicTok-TicTok-TicTok-C1-C2-C3-Pub-C3-Pass-Sleep:经常走神的学生

MDP上学案例状态函数求解

写成矩阵形式

小规模的MDP问题,可以直接求解下式

上式也就是 Bellman 方程的形式,递归形式

- 2 -

定义行动的有限集合$\mathcal A$和策略$\pi$

基于所给MDP $\left<\mathcal S,\mathcal A,\mathcal P, \mathcal R,\gamma\right>$和policy $\pi$:
得到的马尔可夫过程为$\left<\mathcal S,\mathcal P^\pi\right>$

对应策略的状态转移概率和奖励为:

因为增加了行动,如何评价行动,参考状态价值函数,我们定义行动价值函数

$\mathcal R$:

s\a Study Thirsty TikTok Sleep Quit
Class1 -2 \ -1 \ \
Class2 -2 \ \ 0 \
Class3 10 1 \ \ \
TikTok \ \ -1 \ 0
Sleep \ \ \ \ \

$\mathcal P^\pi$:

Class1 Class2 Class3 TikTok Sleep
Class1 0.5 0.5
Class2 0.5 0.5
Class3 0.1 0.2 0.2 0.5
TikTok 0.5 0.5
Sleep

$\mathcal R^\pi$:

Class1 Class2 Class3 TikTok Sleep
-1.5 -1 5.5 -0.5 0

利用 Bellman 公式

计算出了当前策略下的价值

- 3 -

最优价值函数 Optimal Value Function

通过计算最好的选择,实现对状态的好坏进行评价,当得到最优价值函数后,MDP问题就解决了。

几个 Bellman 方程:

策略提升:

最优策略:

价值迭代推导过程:

value-base 方法

估计价值函数

Monte-Carlo:

Temporal Difference:

Incremental every-visit Monte-Carlo

TD(0)

Sarsa

Importance Sampling

Q learning

行动策略 $\mu$ 、借鉴(评价)策略 $\pi$