基于DMP的机器人操作示范学习技术应用开发文献综述

 2022-11-27 03:11

毕业设计开题报告

  1. 文献综述
    1. 引言

随着近几年来电子信息技术与自动控制技术的迅猛发展,智能机器人在工业生产乃至日常生活中都扮演着越来越重要的角色。针对传统机器人控制方法需要用户对期望的机器人行为分解和手动编程的特性,研究者通常采用机器人示范学习技术(learning by demonstration,LbD)来避免这些不足。

机器人示范学习,也被称为模仿学习或学徒学习,是一种能让机器人自主地执行新任务的技术。它认为通过对人类的示范行为的观测,能够导出一个合适的机器人控制器。其目的是让机器人的功能能够更容易地扩展到新的情况。其核心是学习和泛化,而不是简单的记录和复制。机器人示范学习技术最早开始于1980s,发展至今已经衍生出了许多研究调查。针对一个基本的机器人示范学习问题,首先需要确定的是模仿学习什么,以及怎样模仿。解决模仿学习什么的问题也就是确定示范中的哪一个方面需要被模仿学习,其关键在于找到衡量示范行为的度量标准。而确定度量标准之后,怎样模仿学习的问题也就变成了如何让机器人执行学习到的行为来使度量标准最优化。虽然目前机器人示范学习还未广泛应用,但仍在在稳步发展并有着广阔的前景。

    1. 国内外研究现状

如今机器人示范学习的研究方向可以大致分为两个趋势,一个趋势是学习单个行为,以感知和运动信息之间的非线性映射的形式呈现。另一个趋势是学习多个行为的组合,在一系列运动感知单元下分解运动信息。

单个行为的学习只能单独的学习,不可以对一个示范行为的集合模仿学习。即示教者将每次只提供一个子运动的示范行为。如果这个示范行为只有一个,则称之为“一次性学习”[1]。和简单的记录和复制不同的是,一次性学习会给控制器提供先验知识,其中包括系统初始的行为模式,同时该控制器还会根据示范行为来学习行为模式的参数。而如果示范行为有多个,则又称之为“多批次学习”[2],模仿学习时,通常将示范行为用概率密度函数建模,然后用机器学习的各种非线性回归技术进行分析,最后将得到的数据统计分析推理,得到最终的学习结果。如今流行的方法包括高斯过程,高斯混合模型[3],支持向量机等。

学习由单个动作的组合和并置组成的复杂任务是机器人示范学习的最终目的,因此对多个行为组合的学习就显得尤为重要。一种常见的方法是,首先单独示范每个行为的模型来学习所有单个行为的模型[4],然后在第二阶段通过强化学习的方法对其进行正确的排序,从而组合出一个复杂任务[5]。但是此方法默认所有行为均已知,行为的集合也固定。对于某个特定任务,这确实没有问题,但如果更换使用场景,就可能出现超出原有固定行为集合的行为,因为迄今为止,尚没有通用原始行为的数据库,并且尚不清楚人类行为的可变性是否真的可以减少到一个有限列表中。而另一种方法是观察示教者完成完整的复杂任务并自动分割任务以提取原始行为,类似于任务导向型[6]。其主要优点是可以一次性学习原始行为及其组合方式。而出现的另一个问题是,原始行为的数量通常是未知的,必须考虑多种可能的细分[7]

由于机器人示范学习涉及到多个领域,因此以本次毕设的研究目标轨迹学习为例,给出其已有的设计方法:

  1. 动态运动基元法(DMP)[8]

动态运动基元旨在设计一种可以学习并且泛化运动技能的控制器。该控制器基于非线性动力学系统,使用局部加权回归来学习由受试者表现出的复杂的,不连续的或有节奏的运动。其本质是在一个具有稳定性质的2阶动力学系统中引入非线性项,使其收敛于目标点吸引子。DMP具有空间不变性与时间不变性,泛化的轨迹与原始轨迹形状相似。

  1. 基于样条的轨迹逼近法(NURBS)[9]

该方法首先通过隐马尔科夫模型来对示范行为中的轨迹进行提取与选择,然后再采用非均匀有理B样条法对轨迹进行逼近。这种方法在单个示范时,可以有效的滤除因手臂震颤和非自愿运动引起的高频轨迹噪声。其最终生成的轨迹具有高次,紧凑的表达形式,且满足数学连续性约束。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。