表格型方法求解RL——Sarsa和Q

技术2022-07-11 119

内容都是百度AIstudio的内容，我只是在这里做个笔记，不是原创。

https://aistudio.baidu.com/aistudio/education/group/info/1335

首先记录如何下载代码和跑例子

然后进入文件夹里，运行python train.py。

如果出现下述情况

方法：

windows： set CUDA_VISIBLE_DEVICES="" linux： export CUDA_VISIBLE_DEVICES=""

Sarsa和Q_learining的区别如下：

Sarsa和Q-learning的区别

用人话讲：那就是Saras在执行learn方法时会用到下次状态和下次动作（这个动作是下个状态一定会执行的动作），而Q-learning在执行learn方法时只用到下次状态（也用到下次动作，但是这个动作是最优策略选的动作，但不一定是下次实际执行的动作）

把代码对比一下：

先看Q-learning，计算reward时会使用下次动作，但只是最优策略的动作，下次实际的动作是靠sample函数得到的。

Saras，在learn的时候也用到下次动作，不过这是下次实际执行的动作。

两种方法下次实际执行的动作都是通过sample()函数得到的，而且是一样的。

代码执行就是Git clone到本地后，切换到课程文件夹下就可以了。

执行界面

Processed: 0.010, SQL: 9