基于BP网络模型辨识的机器人智能控制

来源:网络  作者:网络转载   2019-09-22 阅读:948
如何在模型未知时实现对机器人的控制这一问题的研究对机器人理论的发展和机器人控制理论在实践中的应用都具有重要的意义。本文提出一种基于神经网络机器人模型辨识的迭代学习智能控制方法。仿真表明该方法具有满意的效果。1 前言 作为在现代控制理论鼎盛时期问世的机器人,其控制技术的成长与现代控制理论的发展有着密切的关系。在机器人技术三十多年的成长过程中现代控制理论所提供的几乎所有的设计方法都在机器人上做过应用的尝试,这些控制方法在建立机器人的数学模型时需要做合理的近似处理,忽略一些不确定性因素。然而,机器人动力学具有高度非线性、强耦合等特点,其不确定的因素客观存在,这些不确定的未建模部分动态地影响这些理论结果在实际中的应用。如何在模型未知时实现对机器人的控制这一问题的研究对机器人理论的发展和机器人控制理论在实践中的应用都具有重要的意义。 人工神经元网络(Artifical Neural Network)是在现代神经学、生物学、心理学等科学领域成果的基础上产生的,反映了生物神经系统的基本特征,是对生物神经系统的某种抽象、简化与模拟,是理论化的人脑神经网络的数学模型,其能够逼近任意非线性映射的特性,为解决机器人控制问题提供了新的手段。 本文提出一种基于神经网络机器人模型辨识的迭代学习控制方法。这种方法用神经网络辨识机器人系统的正向或逆向模型,并消除系统不确定性和外部干扰的影响。仿真表明这种方法效果良好。2 基于神经网络模型辨识的机器人迭代学习控制 迭代学习控制方法在解决由于对象存在非线性或建模不良造成的不确定性问题方面具有得天独厚的优越性。它模仿人类的学习功能,在学习过程中不断弥补缺乏的先验知识,进而能使系统的控制性能得到不断改善。 采用神经网络辨识机器人的逆向模型,使机器人的关节运动沿迭代轴方向逼近期望轨迹;迭代学习控制器在线学习控制参量,使关节运动沿时间轴方向跟踪期望轨迹。在每一次的迭代学习过程中,使神经网络训练到对模型的辨识达到比较好的逼近精度后,利用神经元网络的输出构造下一次迭代学习过程中前馈部分的控制律,再将其与实时反馈控制结合,形成鲁棒迭代学习控制算法。2.1 反馈控制器的设计 用神经网络的辨识模型近似代替机器人系统的实际模型时,神经网络必须进行一次或多次在线训练直至收敛状态,这影响了控制的实时性。此外,学习控制不一定能保证每次学习时都能补偿跟踪误差,传统的反馈控制有助于克服此类问题,所以为了提高系统的抗干扰性能和初始鲁棒性,在控制系统中可以引入反馈控制。 引入反馈控制增强了系统的抗干扰性能,提高了系统的鲁棒性,从而保证每次学习时都能跟踪补偿误差。2.2 神经网络辨识器设计 机器人非线性自回归滑动平均模型(NARMAX模型)的一般形式为 y(t)=f(y(t-1),y(t-2),…,y(t-n);u(t-1),u(t-2),…,u(t-m)) 其中,u(t)y(t)分别是系统的输入和输出向量;mn为输入和输出的最大时延。f为未知的输入输出非线性函数。将上式简记为y(t)=f(I(t-1)),其中,I(t-1)=[y(t-1)[SUP]T[/SUP],…,Y(t-n),…,u(t-1)[SUP]T[/SUP],…,u(t-m)[SUP]T[/SUP]]∈R[SUP]nq+mp[/SUP] 则三层神经网络结构的BP神经网络辨识模型可以表示为 其中,W代表网络的权值,N代表神经网络输入输出映射函数,神经网络的输入为I(t)∈R[SUP]nq+mp[/SUP],网络的输出为,它由N[SUB]0[/SUB]个输出神经元构成,可以确定该神经网络输出层神经元的个数为N[SUB]0[/SUB]=q。 对于确定的神经网络结构,对其进行训练和学习,找到满足要求的权值参数,使给定的目标函数最优。通常,找到最优权值比较困难,只能找到真实函数的一个近似。为此,给定一个逼近精度ε>0,只要找到权值W*使得网络输出与期望输出的误差小于ε,便认为网络模型y(t+1)=N(I(t),W*)是对未知函数的一个逼近。假设神经网络的辨识误差是 当此神经网络经过训练后,获得最优权值(W*)时满足‖f(I(t))-N(I(t),W‖=‖e[SUB]n[/SUB](t+1)‖≤ε,D为R[SUP]nq+mp[/SUP]上的一个集合。 至此,我们得到了逼近机器人系统的神经网络模型,将神经网络的训练与学习控制结合起来,在第次迭代学习的过程中,使神经网络学习一定的次数以逼近机器人系统模型。通常以误差准则 来作为网络模型逼近机器人系统的标准。g(·)是e(t)的函数,e是定义在[0,r]上的误差函数,是网络模型与实际系统的偏差,是网络模型参数(通常表现为权值)的非线性函数,于是,辨识问题归结为非线性优化问题。神经网络具有处理非线性优化问题的能力,且能并行处理信息,速度较快,因此,在神经网络辨识中采用这种误差准则。 采用BP算法修整神经网络的权值和阈值,使误差性能函数 最小,其中k代表迭代学习的次数,代表实际输出和网络模型的输出,T为神经网络采样时间。采用梯度下降法递推和修正权值 其中β为学习因子,也就是按梯度法搜索的步长,当其取值大时,学习速度就快,但容易引起权值震荡甚至发散,其取值小时,网络训练的时间长,学习速度较慢。α为动量因子,它的大小决定过去权值变化对目前值的影响程度,其作用为记忆上次连接权值的变化方向,抑制系统可能产生的振荡,起平滑的作用。选择适当的动量因子,可以降低反传算法对误差表面的灵敏度,使网络避免陷入局部最小点,一般选在0.9左右。γ为网络训练次数。 在第k次重复试验的过程中,权值随γ的增加朝最优方向修整,使得辨识模型误差逐渐减少,当达到给定的逼近精度时便可以结束训练,得到最优权值,利用计算得到网络的输出,用此输出构造第k+1次迭代学习的前馈作用,与实时反馈作用共同产生控制输入2.3机器人控制方案设计 完成神经网络辨识器以及反馈控制器的设计后,引入迭代学习控制器,完成整个控制方案的设计。整个系统控制框图如图1。[align=center]图1 控制系统结构框图[/align] 迭代学习控制器采用简单的P型结构,u[SUB]fb[/SUB]、u[SUB]ff [/SUB]分别是由反馈控制器和学习控制器确定的控制律,第k次迭代学习过程中,机器人的迭代学习控制律为其中为反馈控制项,k[SUB]p[/SUB]和k[SUB]d[/SUB]为正定的位置和速度增益矩阵,是系统的期望轨迹,是第k次迭代学习过程系统的实际输出。为学习控制项,k[SUB]ILC[/SUB]为学习增益矩阵,为第k次迭代学习过程神经网络的输出。 前面所用的学习律不能利用其它控制方法得到的先验知识,对于新的期望轨迹必须重新开始学习,这种学习机制不符合人类的学习行为,这是迭代学习控制难以推广的重要原因,有关文献针对于此引入了遗忘因子。遗忘因子的引入抑制了迭代开始时跟踪误差的大幅度摆动,对要求跟踪的新的期望轨迹先利用系统的历史控制经验,用神经网络估计系统的期望输入,作为迭代学习控制算法的初始控制输入,再由迭代学习律逐步改善控制输入,使得只需少数的迭代次数就能达到跟踪精度的要求,大大提高了系统的学习速度,使所研究的控制方法更具有实用价值。为了实现对期望轨迹y[SUB]d[/SUB](t)的渐近跟踪,采用改进的学习律: 式中γ为遗忘因子0≤γ≤1,e[SUB]k[/SUB](t)为跟踪误差,e[SUB]k[/SUB](t)=y[SUB]d[/SUB](t)-y[SUB]k[/SUB](t) R(t)为有界学习增益矩阵,R(t)∈R[SUP]mxr[/SUP] 初始修正项γu0(t)可以避免迭代轨迹的大幅度摆动,从而可以加快迭代收敛速度。3 机器人控制仿真 通过仿真分析机器人系统控制方案效果并与常规机器人PID控制进 行对比。由仿真结果可以看出,基于神经网络的迭代学习控制收敛速度快、跟踪精度高,超调小,具有良好的鲁棒性和控制性能。[align=center]图2 基于神经网络模型辨识的迭代学习控制响应曲线图3 常规PID控制响应曲线[/align] 迭代学习控制响应曲线、常规PID 响应曲线分别如图2、图3所示。仿真曲线纵轴单位为弧度,横轴单位为秒。[align=center]图4 有干扰输入无神经网络辨识器作用响应曲线图5 有干扰输入有神经网络辨识器作用响应曲线图6 迭代学习控制跟踪误差输出曲线[/align] 神经网络辨识器给出了机器人较为精确的模型并消除系统不确定性和外部干扰的影响神经网络辨识器作用响应曲线如图4、图5、图6所示。4 结语 先进的建模与控制技术应用到以机器人为代表的非线性、时变、强耦合对象中去已经成为智能控制方法研究的热点。随着智能控制方案的成熟发展,必将加快机器人的应用速度。当然,各种智能控制方案在机器人中的实际应用还需要很长的路要走。
标签: 辨识
打赏

免责声明:
本站部份内容系网友自发上传与转载,不代表本网赞同其观点;
如涉及内容、版权等问题,请在30日内联系,我们将在第一时间删除内容!

购物指南

支付方式

商家合作

关于我们

微信扫一扫

(c)2008-2018 DESTOON B2B SYSTEM All Rights Reserved
免责声明:以上信息由相关企业或个人自行免费发布,其真实性、准确性及合法性未证实。请谨慎采用,风险自负。本网对此不承担任何法律责任。

在线咨询

在线咨询:

QQ交流群

微信公众号