表格型方法求解RL——Sarsa和Q

    技术2022-07-11  97

    内容都是百度AIstudio的内容,我只是在这里做个笔记,不是原创。

    https://aistudio.baidu.com/aistudio/education/group/info/1335

    首先记录如何下载代码和跑例子

     

     然后进入文件夹里,运行python train.py。

    如果出现下述情况

     方法:

    windows: set CUDA_VISIBLE_DEVICES="" linux: export CUDA_VISIBLE_DEVICES=""

     

     Sarsa和Q_learining的区别如下:

     Sarsa和Q-learning的区别

    用人话讲:那就是Saras在执行learn方法时会用到下次状态下次动作(这个动作是下个状态一定执行动作) ,而Q-learning在执行learn方法时只用到下次状态(也用到下次动作,但是这个动作是最优策略选的动作,但不一定是下次实际执行的动作)

    把代码对比一下:

    先看Q-learning,计算reward时会使用下次动作,但只是最优策略的动作,下次实际的动作是靠sample函数得到的。

     Saras,在learn的时候也用到下次动作,不过这是下次实际执行的动作。

    两种方法下次实际执行动作都是通过sample()函数得到的,而且是一样的

     

    代码执行就是Git clone到本地后,切换到课程文件夹下就可以了。

     执行界面

    Processed: 0.009, SQL: 9