深圳市优必选科技有限公司是一家集人工智能和人形机器人研发、平台软件开发运用及产品销售为一体的全球性高科技企业。2008年,优必选从人形机器人的核心源动力伺服舵机研发起步,逐步推出了消费级人形机器人、商用服务人形机器人和Jimu系列品牌机器人,并成功入驻全球部分AppleStore零售店。2017年,优必选与清华大学成立智能服务机器人联合实验室,与悉尼大学成立人工智能研究院,在人形机器人驱动伺服、步态运动控制算法、机器视觉、语音/语义理解、情感识别、U-SLAM(即时定位与地图构建)等领域深度布局,积极打造“硬件+软件+服务+内容”机器人生态圈,致力实现让机器人走进千家万户的梦想。
阿尔法系列机器人
该机器人主要用于家庭、学校教育及娱乐市场,操作灵活多变。具有PC端3D可视化动作编辑软件,支持人机互动;可以手机APP端蓝牙高速连接,实现语音指令操作,兼容iOS&Android。机器人内置强大的核心源动力“伺服舵机”,控制精度高,机身灵活多变,获得多项发明专利。低功耗设计,充电时间短,续航能力强。
图1人形机器人阿尔法一代、阿尔法二代、Lynx
阿尔法系列机器人涉及的关键技术:
(1)数字舵机控制技术
采用空心杯电机来设计大扭矩的数字舵机,在性能和成本上达到平衡,作为机器人的核心器件,将有效的控制机器人整体成本,真正实现商业化。包括高性能电机的设计,采用稀土钕铁硼永磁材料,让电机实现高转矩密度、高功率密度、低重量和小体积的目标;采用有限元仿真的方法,对电机定转子结构优化设计,降低反电动势谐波,实现波形正弦性,提升电机效率、平稳性;基于解析法和有限元法,采用无齿槽结构设计,绕组贴在光滑的铁芯表面,从原理上消除齿槽转矩。电机变频控制算法包括通用传感器设备信息采集及基于算法的传感器采样信息处理,基于矢量化的电机控制算法设计相应的驱动控制系统,完成对电机的转速、转矩及舵机位置的控制。
(2)多关节联动和平衡技术
人形机器人集机、电、材料、计算机、传感器、控制技术等多门学科于一体。在机器人跳舞、行走、起卧、武术表演、翻跟斗等杂技以及各种奥运竞赛等动作中,多关节联动和平衡技术是重点。阿尔法机器人采用20个伺服舵机作为机器人的运动控制。
图2 舵机示意图
(3)基于互联网的语音云交互技术
用户发出语音指令后,机器人的语音采集设备采集语音信号并进行预处理,通过互联网将信息传输至云端(语音云服务器)。云服务器端进行的处理包括:语音识别(ASR),即让计算机能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。语音合成,又称文语转换(TTS)技术,涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息,也即“让机器像人一样开口说话”。
(4)智能感知及调节技术
阿尔法机器人智能感知技术包括:系统存储空间检查--当机器人的存储空间不足时,通过机器人的立体声喇叭播报“剩余空间不足,无法拍照,请先帮我清理内存”;人脸检测--如果机器人在当前视野范围内,未检测到人脸,系统会控制机器人头部转动以寻找待拍照的用户,如果在头部转动范围内未检测到人脸,机器人会提示“我无法看到你,请站到机器人前面哦”。当机器人检测到自身电池电量偏低时,机器人发出电量低的提示语,并自动从工作状态转换为休息状态,以减少耗电量;当机器人检测到未连接网络或者网络连接中断时,提示用户网络未连接,并自动进行连接,播报处理结果等。
(5)用户行为智能学习技术
阿尔法机器人能够获取用户使用习惯数据,基于用户数据进行学习分析,进而可以为用户提供更好的体验。机器人获取允许数据或用户使用习惯数据是通过集成统计分析SDK方式实现的,以安卓应用统计分析为例,下载并解压缩SDK,将SDK导入智能机器人。然后进行基本功能集成:新增场景类型设置接口、添加权限、应用启动的统计。如果应用在后头允许超过一定时间再回到前端,将被认为是两个独立的启动,例如用户回到主界面,或者进入其他程序,经过一段时间后再返回之前的应用。
Jimu机器人
Jimu机器人是唯一在全球500多家苹果直营店销售的中国品牌机器人,代表了业界最高水平的教育类机器人该系列机器人结合了机械结构、电子技术、传感器技术、自动控制技术、人工智能等多种学科知识的高技术载体,是STEAM教育理念下机器人的代表。
图3 Jimu机器人
Jimu机器人涉及的关键技术如下:
(1)伺服舵机控制系统
Jimu机器人综合了多学科的发展成果,其中核心零部件数字舵机内置MCU系统,含有伺服控制系统,行星减速系统,传感反馈系统,直流驱动系统;自主改进PID算法,体积小,扭矩大,控制精度高。其中舵机的关键指标如“扭力/体积”值、控制精度优于日韩欧美同类产品,而且价格不到其三分之一。动作执行采用数字舵机作为输出,主控盒采用STM32芯片作为主控制芯片,以及红外、陀螺仪、超声波、触碰等丰富的传感模块。各传感器模块化与舵机、主控之间实时流畅通讯。
(2)结构轻量化技术
Jimu机器人的外观装饰件采用的是拼接卡扣式的零件,上百种零件之间可以做到无缝连接,契合精度高。简单易上手的零部件,能让受众能在快速熟悉了解产品。产品采用耐磨自润滑的特殊材料,开模精度高。
Jimu机器人采用镂空部分刚轮结构的方式减少刚轮重量,同时减少交叉滚子轴承的重量;刚轮的外部和波发生器轮毂使用铝合金材料,来减轻重量。
(3)可视化回读动作编程技术
Jimu机器人采用移动端蓝牙连接,简单易懂的PRP(position、record、play)动作编辑功能以及逻辑编程模块,用户在进行逻辑编程的同时也可以看到相应的模块以swift语言展现出来。第一次将可视化回读动作编程技术以及模块化的逻辑编程应用于百变,大大降低了编程门槛,目前该技术还没见有文献述及。
(4)针对孩子的交互设计技术
操作可见性(a.模型列表大卡片设计,简单滑屏的手势交互,增加了对孩子都模型的吸引力。b.运用可交互元素,使用动效或者投影的视觉效果,增加孩童认知)。减少用户选择(孩童不比大人,对于问题的思考不全,所以比较复杂的页面,尽量拆分开不同的步骤,因为判断题永远会比选择题容易得分)。适时的动效设计以及操作指引(在不同模块之间的跨度比较难以连接,需要做一些操作指引来指引用户),App“3D动态搭建”图纸功能通过每个分解的步骤指引爱好者搭建出无穷的创意。
(5)全球社区分享和智能云端技术
社区模块:所有的用户都可以将自己搭建的模型共享到这个平台,对于共享的模型,我们会采用积分奖励的制度,同样这个积分也可以在商城进行实物兑换。对于用户发布的模型或者帖子,可以点赞或者评论,获得相应积分,积分可兑换。打通线上线下模块:线上报名线下活动,让不同的积木兴趣爱好者聚集起来。
智能云端:官方模型列表获取,根据不同国家/地区进行过滤,显示不同的语言。文件同步,根据同一个用户,所创建的模型,程序,动作等,在不同设备之间进行同步。零件导入,同步用户套件零件数据,智能判断用户所搭的模型零件是否支持。
Cruzr机器人
Cruzr机器人主要用于家庭、公司、展馆,集安防、娱乐、迎宾、宣传功能于一体,机器人具有移动功能,安装有摄像头、麦克风、超声波、烟雾等传感器,可进行基于wifi/3G的无线通信,可以自动充电。机器人具备以下功能:自动巡逻、人体检测、人体跟踪、人脸识别、远程遥控、远程视频、烟雾探测等安防功能,同时具有触屏交互控制、语音交互控制、家电遥控、音视频播放、投影仪等与人互动的能力。
图4 Cruzr机器人
Cruzr机器人涉及的关键技术如下:
(1)复杂机器人系统架构设计与集成
为了实现自然化的客服接待交互、引导带路等多种综合功能,Cruzr机器人系统复杂。在硬件方面:由大量不同传感器、交互设备、供电、运动控制、运算处理等部件组成。在软件方面:需要同时采集多路不同传感器的大量信息,同时执行不下数十种智能算法,实时处理包括命令、交互、碰撞等在内的多种事件,还要进行不同任务的响应与切换。随着功能的增多,机器人的系统庞大而复杂,以修补的方式开发和升级机器人,会使得系统越来越复杂,越来越不稳定。Cruzr机器人从全局出发,设计标准化、高效率、开放式的机器人系统架构,解决以打“补丁”的方式开发升级机器人带来的问题。
(2)计算机视觉核心技术
传统的采用2D图像的人体检测方法,准确率还达不到应用级别的要求;传统的入侵检测方法通常也只适用于固定摄像头。Cruzr机器人采用深度摄像头、彩色摄像头与多种其他传感器相结合,改进与利用最近几年的国际上的突破性技术,以实现低成本、高准确率、可应用的人体检测、入侵检测、人脸识别、导航避障等功能。
(3)多模信息融合与智能决策
Cruzr机器人集成了各种摄像头、人体红外感应器、超声阵列、烟雾探测器、麦克风、障碍感应器等多种传感器,要实现的功能模式也是多样化的,如何综合利用这些信息,进行智能化的决策,也是关键问题之一。
(4)复杂场景室内定位导航技术
移动机器人的相关技术研究中,导航技术可以说是其核心技术,也是其实现真正的智能化和完全的自主移动的关键技术。在室内导航方面,传统的激光导航的方式价格昂贵,难以被普通用户接受。Cruzr机器人融合深度摄像头、红外摄像头、超声传感器阵列、障碍感应器、码盘获知的室内环境信息、障碍物信息、机器人本体、目的地位置信息,建立具有学习能力的,可以定位、导航、避障,可以自主移动、自动充电的机器人平台。
(5)自然化人机交互与控制技术
对于机器人而言,通过摄像头、麦克风等传感器,结合多种图像识别、声音识别技术,感知环境并实现与人的交互以及互动控制,进而实现与人类以及环境的自然化交互控制,是机器人智能化动作功能的前提。Cruzr机器人集成3G/WIFI无线通讯模块,设计良好的用户交互界面,使主人可以通过远程的电脑、手机等设备实时查看家内情况,并控制机器人。集成语音交互、触摸屏交互、动作交互等多种人机交互模式。能在人多嘈杂的公共场景下,如何将语音识别、人脸识别、手势识别、机器人控制等技术有机融合,进行客户的定位,进而提供自然化的交互服务与动作。
更多资讯请关注机器视觉频道