Abstract
背景
强化学习算法概念
1956年Bellman提出了动态规划方法。 1977年Werbos提出只适应动态规划算法。 1988年sutton提出时间差分算法。 1992年Watkins 提出Q-learning 算法。 1994年rummery 提出Saras算法。 1996年Bersekas提出解决随机过程中优化控制的神经动态规划方法。 2006年Kocsis提出了置信上限树算法。 2009年kewis提出反馈控制只适应动态规划算法。 2014年silver提出确定性策略梯度(Policy Gradents)算法。 2015年Google-deepmind 提出Deep-Q-Network算法。
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。
这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下,强化学习被称作“近似动态规划”(approximate dynamic programming,ADP)。在最优控制理论中也有研究这个问题,虽然大部分的研究是关于最优解的存在和特性,并非是学习或者近似方面。在经济学和博弈论中,强化学习被用来解释在有限理性的条件下如何出现平衡。
总的来说,RL与其他机器学习算法不同的地方在于:其中没有监督者,只有一个reward信号;反馈是延迟的,不是立即生成的;时间在RL中具有重要的意义;agent的行为会影响之后一系列的data。
reference:
https://blog.csdn.net/qq_20499063/article/details/78762596
https://blog.csdn.net/qq_20499063/article/details/78762596
在标准RL框架[10]中,agent在许多时间步长上与外部环境进行交互。 在此,s是所有可能状态的集合,而a是所有可能动作的集合。 在每个时间步t,处于状态st的代理从环境中感知观察信息Ot,采取行动并从奖励源Rt接收反馈。 然后,代理转换到新状态st + 1,并确定与该转换关联的奖励Rt + 1(st,at,st + 1)。 代理可以从上次访问的状态中选择一个动作。 强化学习代理的目标是以最小的延迟收集最大可能的回报。
reference:
Leslie Pack Kaelbling, Michael L Littman, and Andrew W Moore. Reinforcement learning: A survey. Journal of artificial intelligence research, 4:237–285, 1996.