强化学习(参考于李宏毅教授课程以及莫烦教程)

技术2023-11-16 112

写在前面：小白刚开始学习机器学习相关的的知识。参考了李宏毅教授的课程以及莫烦课程，磕磕绊绊，但有所收获。不断更新总结，若有错误之处。希望大家多指教。数学推导就不详写。

强化学习

Actor 智能体state 状态(Observation) 来源于环境不可控action 动作不可控reward 奖励

让Actor不断尝试

让Total reward值最大

策略是一个可输出函数

在策略Π 下状态 S 的值，表示为 V^Π(S)，是预期收益动作价值函数 Q^Π(s,a)

Policy Gradients 在强化学习应用时会直接输出预测的动作使用Policy Gradients的优势，输出的action可以是一个连续的值

Processed: 0.020, SQL: 9