基于Bulldog机器人平台的机械臂实物抓取文献综述

 2023-08-17 04:08

文献综述(或调研报告):

  1. 深度强化学习

强化学习(Reinforcement Learning)是机器学习的一个重要领域[1],它关注的问题是智能体应如何在环境中采取行动以最大化累积奖励(回报)。在实际应用中,强化学习过程本质上是计算机学习得到在特定任务中的最优决策,这对现实世界中的决策问题的求解有很强的指导意义。强化学习是与监督学习、无监督学习并称的三种基本的机器学习范式之一。与监督学习的不同之处在于,它既不需要从带标签的输入/输出对中学习,也不需要非最优动作显示正确,即可得出最终的策略。相反,它关注的重点更多是在探索未知领域和挖掘当前已有知识之间找到平衡[2]。

强化学习的一大特点就是需要通过不断与环境进行交互,来获得状态、动作、奖励等的样本。这里的环境通常以马尔可夫决策过程(MDP)的形式加以描述,针对这种情况的大多数强化学习算法都使用了动态规划技术[3]。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假定拥有MDP的确切数学模型,并且针对求解的是无法采用精确方法加以计算的大型MDP。一般使用六元组定义一个无限长折扣MDP。其中是智能体有限个状态的集合;是智能体采取的有限个动作的集合;是状态转移概率函数,表示智能体在某个状态下采取某个动作到达另一个状态的概率;是奖励函数;是初始状态的概率分布;以及 是折扣因数。一般使用符号表示一个随机性策略或决定性策略; 算法的目标就是最大化总回报

其中。另外,为了评价每一个状态及状态-动作对的优劣,定义以下状态-动作值函数,值函数,与优势函数:

其中对于。

根据是否学习MDP模型的状态转移概率与奖励函数,我们可以将不同算法分类为基于模型(model-based)和不基于模型(model-free)两种。其中基于模型的方法一般使用经典的规划器,如iterative LQR[4],Model Predictive Control[5]等,最近的研究中也有很多将这些经典规划器与深度神经网络结合的尝试,如[6]中将MDP状态定义为原始图片,利用卷积神经网络预测MDP的状态转移概率与奖励函数,并在此基础上利用MPC进行规划实现机器人控制;[7] 中使用类似变分推断【8】的方法将复杂的图片状态空间映射到隐空间中再用较为简单的函数学习隐空间中的状态转移概率。在不基于模型的算法中,通过直接优化值函数,并根据值推导出策略的算法一般称为值函数(value-based)算法。其中较为经典的强化学习算法有Q-learning[9], SARSA[9] , TD(lambda;)[9] 等,它们在一些简单的经典控制问题上都取得了不错的效果,对于相对复杂的连续空间控制问题、大规模的图片输入游戏等并不能很好适用。通过直接优化目标而得出策略的算法一般称为策略(policy-based)算法,这些算法基于策略梯度的基本定理[10]和[11]。我们在实际应用中比较多的用到的是二者的混合形式actor-critic,最为经典的策略算法是REINFORCE [12],现在的大多数actor-critic算法也由其演化而来。对于较为复杂的控制任务,目前结合深度学习技术中表现较好的有基于Q-learning的DQN [13]、 double DQN [14],基于actor-critic的TRPO [15]、PPO [16],基于决定性策略梯度的DDPG [17]、TD3 [18],以及结合统计机器学习理论的SAC [19]等,他们都各自取得了一定效果上的提升。上述算法在理论推导的基础上全部选择通过模拟实验验证的方法对理论推导结果进行实践证明,对于实际的如机器人抓取、导航与路径规划等存在诸多噪声干扰的复杂任务效果如何仍没有实践证明,这也是当前深度强化学习的限制所在。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。