内容都是百度AIstudio的内容,我只是在这里做个笔记,不是原创。
https://aistudio.baidu.com/aistudio/education/group/info/1335
首先记录如何下载代码和跑例子
然后进入文件夹里,运行python train.py。
如果出现下述情况
方法:
windows: set CUDA_VISIBLE_DEVICES="" linux: export CUDA_VISIBLE_DEVICES=""
Sarsa和Q_learining的区别如下:
Sarsa和Q-learning的区别
用人话讲:那就是Saras在执行learn方法时会用到下次状态和下次动作(这个动作是下个状态一定会执行的动作) ,而Q-learning在执行learn方法时只用到下次状态(也用到下次动作,但是这个动作是最优策略选的动作,但不一定是下次实际执行的动作)
把代码对比一下:
先看Q-learning,计算reward时会使用下次动作,但只是最优策略的动作,下次实际的动作是靠sample函数得到的。
Saras,在learn的时候也用到下次动作,不过这是下次实际执行的动作。
两种方法下次实际执行的动作都是通过sample()函数得到的,而且是一样的。
代码执行就是Git clone到本地后,切换到课程文件夹下就可以了。
执行界面