服务机器人调研报告重要.docx
- 文档编号:9295755
- 上传时间:2023-05-17
- 格式:DOCX
- 页数:43
- 大小:2.29MB
服务机器人调研报告重要.docx
《服务机器人调研报告重要.docx》由会员分享,可在线阅读,更多相关《服务机器人调研报告重要.docx(43页珍藏版)》请在冰点文库上搜索。
服务机器人核心技术与模块解析
目录
服务机器人核心技术与模块解析 1
前言 2
1.服务机器人核心技术:
多模态交互技术 4
1.智能机器人三大核心技术模块:
感知+交互+运控 4
2.感知模块:
多传感融合,SLAM+激光雷达是核心 8
1.与视觉相比,激光雷达+SLAM的方案优势突出 8
2.自主定位导航需要三大技术:
9
3.多传感融合是服务机器人感知环境的大趋势 12
4.国内外服务机器人感知模块案例分析 16
5.激光雷达迈向产业化,有望打破价格瓶颈 20
3.交互模块:
语音达商用门槛,语义理解亟待提升 24
1.智能语音技术已经达到商用门槛 24
2.语义理解仍需时日,静待深度学习算法突破 24
3.图像识别对语音语义交互领域形成补充 28
4.运控模块:
步态与非步态,不是替代,而是共生 32
5.其他模块:
AI智能芯片与机器人操作系统 38
前言
我们从核心技术的角度出发,重点解决几个问题:
(1)智能机器人在应用场景下有哪些核心技术环节和核心模块?
(2)目前智能服务机器人核心技术环节的现状如何?
未来发展趋势和技术路线是什么?
(3)有哪些公司具有优秀的技术积累?
如何把握技术变革和路线更迭带来的投资机会?
核心观点:
1.多场景特征决定了多模态交互属性。
服务机器人需突破三大核心技术模块:
从技术的角度来看,服务机器人的多场景属性决定了其交互方式的多元化,智能型服务机器人涉及到语音、语义分析、情感分析、动作捕捉等多个维度的交互。
我们认为,要达到人机融合的程度,需要突破三方面的核心技术模块,分别是环境感知模块、人机交互及识别模块、运动控制模块。
2.感知模块:
多传感融合是未来大趋势,低成本SLAM+激光雷达是核心。
服务机器人要实现智能化的交互体验,首先要具备环境感知能力。
感知方式中,采用多传感融合是大趋势,包括视觉识别、结构光、毫米波雷达、超声波、激光雷达等。
考虑到家庭和公共场合的应用场景,未来低成本的激光雷达+SLAM方案是不错的选择。
随着商业化加快,激光雷达也有望迈向低成本化。
3.交互模块:
语音识别已达到商用门槛,语义理解亟待提升
伴随计算能力的提升,自动语音识别(ASR)识别能力越来越强。
目前不少企业的语音识别错误率已经达到了实用门槛。
而在语义理解方面,词法和句法基本解决,语义目前仅是浅层处理,自然语言处理仍然困难重重,未来有望伴随深度学习算法得以突破。
除了语音交互方式外,图像识别算法突破也将会对语音语义交互领域形成补充。
4.运控模块:
步态和非步态,不是替代而是共生
运动控制模块增强了服务机器人的移动和运动属性,目前家用服务机器人大多以电机控制为主。
从产品属性看,有步态行走和万向轮为代表的非步态行走,我们认为二者互有优劣,存在场景差异,不存在替代关系,可以共存。
舵机是运控领域里比较核心的部件,对价格敏感,目前国内已经有企业突破了服务机器人专用舵机技术。
5.其他模块:
AI智能芯片通用与专用并行,操作系统领域国产系统正在孕育
芯片是是机器人的大脑,包括通用芯片和专用芯片,对于机器人来说,通用芯片和专用芯片各有千秋,未来各司其职,涉及到深度神经网络,通用芯片中GPU和FPGA在解决复杂运算上优于传统CPU。
操作系统方面,目前主要以ROS和安卓系统为主,
TuringOS、iBotOS等国产系统也在不断突破和孕育。
6.投资建议
我们建议从两个角度把握投资机会:
(1)关注技术型平台公司,如AI芯片、OS、语音语义、感知等环节,重点公司包括地平线、图灵、寒武纪、智臻智能、云知声、科大讯飞、思岚科技等;
(2)关注在细分领域做应用开发的企业,基于特定场景整合行业资源,重点关注的公司包括康力优蓝、科沃斯、优必选、未来伙伴等公司。
上市公司建议关注巨星科技、康力电梯、慈星股份、机器人、科大讯飞(广发计算机覆盖)等。
7.风险提示
服务机器人市场需求低于预期;行业过度竞争;核心技术突破低于预期。
1.服务机器人核心技术:
多模态交互技术
1.智能机器人三大核心技术模块:
感知+交互+运控
整个服务机器人产业建立在三大核心技术模块:
人机交互及识别模块、环境感知模块、运动控制模块。
依托于三大模块,机器人有基础的硬件:
电池模组、电源模组、主机、存储器、专用芯片等,还有操作系统:
ROS、Linux、安卓等;由硬件和操作系统构成机器人整机,整合基础硬件、系统、算法、控制元件,形成满足一定行走能力和交互能力的机器人整机;在此基础上形成各种基础应用开发,基于机器人操作系统开发的控制类APP、管理员APP和各类应用程序App等;产生的数据将有群组服务、云服务、大数据服务等。
服务机器人的交互能力、感知能力、运动能力对应三大模块。
交互模块包括语音识别、语义识别、语音合成、图像识别等,相当于人的大脑;感知模块借助于各种传感器、陀螺仪、激光雷达、相机、摄像头等,相当于人的眼、耳、鼻、皮肤等;运控模块包括舵机、电机、芯片等。
服务机器人的各个细分模块中,语音模块重要性和成熟度均最高,语义模块是目前突破重点,运控模块相对重要性最弱。
服务机器人三大模块可以继续细分为语音模块、语义模块、图像模块、感知模块、运控模块、芯片模块。
重要性排序依次为:
语音模块、语义模块、芯片模块、图像模块、感知模块、运控模块。
成熟度重要性排序依次为:
语音模块、图像模块、运控模块、感知模块、语义模块、芯片模块。
从技术储备上来看,人工智能是核心。
目前的技术储备方面,只有语音和OCR领域具备一定的成熟度。
语音和OCR领域已发展接近20年,在某些特定场景和行业已经有了一些数据基础。
其他的技术包括图像识别、语义分析都还在很早期的阶段。
语音领域,也是目前已知的平台类企业最大的板块。
2.服务机器人多场景特征,多模态交互融合是关键
从第一代以鼠标和键盘的交互方式为特点的PC互联网,到第二代以触屏、GPS等交互方式为特点的移动互联网,再到今天以多模态人机交互方式为特点的第三代互联网,服务机器人产业,底层的逻辑就是人机交互方式的发展和演变。
随着语音交互、视觉图像交互、动作交互、脑电波交互等多模态人机交互技术的逐步发展和成熟,这些第三代人机交互方式将会深层次地改变我们日常生活的应用场景;同时,一场第三代互联网的主流终端模式和服务内容入口的竞争也在同步进行。
什么是多模态交互?
多模态融合了视觉、听觉、触觉、嗅觉等交互方式,其表达效率和表达的信息完整度要由于传统单一的交互模式。
人机交互是服务机器人场景化不可或缺的环节。
传统的交互模式中,大多是单一单向的交互方式。
人机对话中,尤其是多轮人机对话,涉及到语音理解、语义分析、情感分析、动作捕捉等多个维度。
2.感知模块:
多传感融合,SLAM+激光雷达是核心
1.与视觉相比,激光雷达+SLAM的方案优势突出
多传感融合保证安全,技术难点在于激光雷达。
激光雷达、毫米波雷达、3D摄像头等多种传感器在功能上的冗余,保证了服务机器人的安全性和正常使用。
其中激光雷达是绕不开的核心。
激光雷达的原理是:
通过发射n条激光利用三角测距原理(低成本方案)或TOF(TimeofFlight,高成本方案)来测量周围物体与自身的距离,获得精度较高的距离信息——点云数据。
激光雷达是传感器的一种,对于服务机器人如果要实现精确的服务,满足复杂场景下的用户需求,除了精准的定位,还需要结合定位信息对环境进行识别。
作为入口,激光雷达是
SLAM的重要入口。
SLAM(SimultaneousLocalizationAndMapping)的含义是即时定位与地图构建,指的是机器人在自身位置不确定的条件下,在完全未知环境中创建地图,同时利用地图进行自主定位和导航。
SLAM问题可以描述为:
机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和传感器数据进行自身定位,同时建造增量式地图。
自主定位导航主要应用于商场导购、自动送餐、智能仓储、安全巡逻、病床看护、除尘清扫等。
2.自主定位导航需要三大技术:
(1)实时定位。
GPS没办法用,目前GPS只能实现到半米的精度,而且实时定位的更新频率很快,需要达到10次/秒的更新频率,目前的定位技术没办法满足。
定位包括相对定位和绝对定位。
相对定位主要依靠内部本体感受传感器如里程计、陀螺仪等,通过给定初始位姿,来测量相对于机器人初始位姿的距离和方向来确定当前机器人的位姿,也叫做航迹推测(DeadReckoning,DR);绝对定位主要采用主动或被动标识、地图匹配、
GPS、或导航信标进行定位。
位置的计算方法包括有三角测量法、三边测量法和模型匹配算法等;
(2)绘制地图。
导航领域是有专人绘制的,但是在家庭里面,是不可能有人来绘制地图的,家庭的家居会实时变化,所以需要机器人能在没有人工干预的情况下画图;
(3)路径规划。
导航仪的核心就是路径规划,机器人绘制的地图是任何一个方向都可以走的,机器人的路径规划还包括避障和直接控制行为,导航仪是由人来决定,机器人是用算法决定的,谷歌的无人驾驶汽车,主要的工作量都在导航算法上。
以扫地机器人为例:
国际上有一个标准场地,80平米,没有导航模块的一般会在40多分钟,80%的清洁率。
而装上公司的SLAM模块后,10分钟就达到了95%的覆盖率。
如果把视野放到其他领域,必须要非常高效的移动到目的地,这是不可绕过的技术方案。
做一个简单的对比:
(1)视觉定位。
定位范围是0.1-2米,无法获得地图,需要配额外的传感器才能躲避障碍物,需要合理的光源才能适应环境;稳定性比较差;
(2)如果采用激光雷达的方式,定位精度可以控制在0.01-0.1米,并且可以获得精确的地图;支持自主躲避障碍,不会产生累计误差。
激光雷达在服务机器人上的应用刚刚开始。
激光雷达优点是可以实时测量周围物体和障碍物的距离,且可以测量绝大部分物体,比如谷歌无人驾驶汽车、BigDog机器人都是用不同型号的激光雷达进行人体的定位;缺点是在大雨大雪等恶劣天气中使用效果会受到影响,而毫米波雷达精度不高、视场小,但测量距离远,可以达到200米,刚好弥补了激光雷达的短板。
激光雷达是“机器之眼”,能够获得周边环境的点云数据模型,现在多用于在测量中有一定精度要求的领域,或需要测量自身与人体距离的智能装备,在测量与人的距离这一功能上尚无完美替代方案。
在目前主流的前沿机器人身上已经装备了激光雷达模块,如Atlas和pepper等。
3.多传感融合是服务机器人感知环境的大趋势
具备移动功能的智能装备,首先要实现感知自身位置与周边物体的需求。
目前,绝大多数移动式智能装备都是使用激光雷达、摄像头、毫米波雷达、超声波传感器、GPS这五类传感器或其中某几个的组合来实现自主移动功能。
这五种传感器各具特征,各自有所侧重,一般在复杂系统中组合使用。
而激光雷达在测量与人的距离这一功能上独占一绝,尚无完美替代方案。
激光雷达:
通过发射n条激光利用三角测距原理(低成本方案)或TOF
(TimeofFlight,高成本方案)来测量周围物体与自身的距离,获得精度较高的距离信息
——点云数据。
激光雷达按照激光束的数量可以分为1线、4线、8线、16线、32线、
64线激光雷达,多个激光束排列在一个竖直的平面呈不同角度发射出去,经高速旋转或电
子方式形成了对于空间的三维扫描,n线激光雷达就相当于一次性打出了n个平面,激光束的数量决定了三维空间的覆盖面和点云数据的密度。
激光雷达优点是可以实时测量周围物体和障碍物的距离,且可以测量绝大部分物体,比如谷歌无人驾驶汽车、BigDog机器人、Pepper都是用不同型号的激光雷达进行人体的定位;缺点是在大雨大雪等恶劣天气中使用效果会受到影响,比如谷歌无人驾驶汽车从未在大雨大雪等恶劣条件下测试。
激光雷达是“机器之眼”,能够获得周边环境的点云数据模型,现在多用于在测量中有一定精度要求的领域,或需要测量自身与人体距离的智能装备,在测量与人的距离这一功能上尚无完美替代方案。
摄像头:
获得观察画面,对每一帧画面进行算法处理,能够识别物体、判断位置。
摄像头必须先识别再测距,如果无法识别则无法测距。
其优点在于摄像头是目前唯一能够辨别物体的传感器。
但是摄像头同时具有3个缺点:
缺点一是逆光或光影复杂的地方难以使用;缺点二在于依赖于算法,能否辨别物体完全依赖样本的训练,样本未覆盖的物体将无法辨别,比如
Mobileye在中国道路上应用,识别超载运货车的成功率不超过80%;缺点三在于摄像头对于行人的识别具有不稳定性,如穿着吉祥物套装或着装颜色与背景相似的人或搬运东西的人极有可能无法识别。
毫米波雷达:
发射1~10毫米的电磁波,根据反射波的时间差及强度等来测量距离,汽车毫米波雷达的频段主要在24Ghz和77Ghz。
其优点在于性价比较高,在很多高档轿车里都有应用;缺点是行人的反射波容易被其他物体反射波埋没,难以分辨,无法识别行人,例如采用毫米波雷达和摄像头的感知系统实现自动驾驶的特斯拉,在行人较多的闹市区会自动锁定自动驾驶功能。
因此,毫米波雷达在测距领域具有较高性价比,但是其无法探测行人是一个致命弱点,只能应用于自适应巡航系统等ADAS系统。
超声波传感器:
发射振动频率高于声波的机械波,根据反射波测量距离。
其优点在于探测物体范围极广,能够探测绝大部分物体,且有较高稳定性;缺点是一般只能探测10米以内的距离,无法进行远距离探测。
因此,超声波雷达广泛应用于倒车雷达,在自动驾驶领域常常作为短距离雷达,应用如自动泊车辅助系统。
GPS:
可以获得自身相对于全局的位置信息。
其优点在于技术较为成熟,能够实现在全局视角的定位功能;缺点在于无法获得周围障碍物的位置信息。
具备定位功能的GPS与前几个探障类传感器往往需要搭配使用。
通过对比分析这五类位置、物体感知传感器的特性以及优缺点,我们认为:
这五类传感器各具特点,能够满足不同功能,需要相互搭配组合使用,但激光雷达在精度和探测人体的稳定性上独占一绝,其在感知系统中的重要位置难以被撼动和逾越。
但是激光雷达也有其最大的缺陷,能判断障碍物,但是不能识别障碍物,因此也无法对障碍物进行理解。
在机器人的感知领域,除了要探测到障碍物,还需要进行障碍物识别,因此,在整个过程中,还需要加载深度图像识别与其配合。
共同完成对环境的感知。
4.国内外服务机器人感知模块案例分析
波士顿动力致力于研究人工智能仿真,具有高机动性、灵活性和移动速度的先进机器人,公司于2014年被谷歌收购。
该公司一个知名产品——BigDog机器人是一个可以走、跑、爬并搬运重物的越野机器人,其外形是根据狗的外形设计的,BigDog的四条腿可以吸收冲击以回收能量。
BigDog机器人拥有超高的稳定性和协调性,能在路况糟糕的野外、山地流畅地行进,并且在受到诸如冲撞、脚踢等外力冲击时能够做出反应防止跌倒。
BigDog机器人的头部配置了一台德国西克提供的一线激光雷达,作用是在有人引领
BigDog的时候,定位领路人产生转向信号并与领路人保持一定的距离。
波士顿动力Atlas机器人
波士顿动力在2016年2月公布了公司的最新产品人形机器人Atlas的视频,视频中
Atlas进行了户外不平整道路的行走、自主定位并搬运盒子、自主稳定和自主站立等任
务。
虽然功能上还不够完美,但其超强的站立、行走、搬运重物后的协调稳定性基本上已经奠定了人形机器人的新高度。
关于Atlas的技术波士顿动力并没有给出官方资料,不能确定Atlas在野外的行走是远程操控还是自主避障,但是根据视频内容和各种网络媒体的解读,首先可以确定的是
Atlas头部安装了激光雷达和立体视觉系统(多目摄像头),激光雷达可能和BigDog机器人一样用于跟随引路人,也可能用来自主避障,或是两者兼具;立体视觉系统用来识别二维码,也可能用来自主避障,或是两者兼具。
可编程仿人型机器人NAO
NAO是法国AldebaranRobotics研发的人形机器人,国内优秀机器人公司优必选的
Alpha系列从外形上与NAO颇为相似,优必选也和AR公司合作过,负责NAO的中文系统的开发。
用AR公司自己的描述,“NAO是一个惹人喜爱、具有互动性的、能够个人定制的机器人伙伴”,NAO硬件功能齐备,背后还要强大的应用编程平台,能够根据不同
的使用需求定制化机器人的特殊功能。
最近热门的情感交互型机器人Pepper就是AR公司在NAO的基础上,与软银集团合作设计生产的。
相比于波士顿动力的机器人未来可能会应用于工业、军事领域,NAO机器人未来更多可能会应用在教育、娱乐领域,NAO头部的两个眼睛一个发射激光一个接收反射激光,组成激光雷达,此外额头和嘴分别安装了一个摄像头。
情感交互型机器人Pepper
日本软银和法国AldebaranRobotics合作开发的情感交互型机器人Pepper,首发
1000台1分钟之内就被日本消费者抢购一空。
Pepper也配备了多种传感器以实现人机交互的功能:
摄像头、红外传感器用来识别人面部表情特征判断使用者情感;位于双眼的固
定式激光雷达(激光测距仪)用来在行进的过程中测量障碍物和使用者,并与使用者保持合适的距离;麦克风用来接受使用者的语音信息;触觉传感器用来感受使用者的接触等。
其他自主移动式智能装备
除无人驾驶汽车以及上述智能装备以外,激光雷达在多种移动式智能装备上也起着举足轻重的作用。
如激光导航扫地机器人、激光导航AGV小车以及自主移动式手术工具平台等创新型自主移动式智能装备,都是建立在激光雷达测距建模的基础之上,实现了自主移动的功能。
其中,由于扫地机器人面向消费市场,相同品牌下的激光导航扫地机器人和无任何导航方式的随机碰撞式扫地机器人相比,价格一般贵出80%-150%,其普及过程与成本降低的进程高度相关。
但路径规划式扫地机器人无论是从清洁效率或清洁质量上都比随机碰撞
式扫地机器人高出很多,是未来扫地机器人发展的方向。
激光导航技术与同属于路径规划类技术的GPS技术和视觉技术相比,激光导航技术在综合能力上还是略占上风。
5.激光雷达迈向产业化,有望打破价格瓶颈
激光雷达的应用领域很广泛,未来所有的智能设备,一旦涉及环境感知,都需要利用激光雷达。
目前国际上领先的生产激光雷达的厂商主要有Velodyne、Quanergy、
Ibeo、西克(SICK)、北阳机电(Hokuyo)等。
其中西克和北阳机电的激光雷达是二维激光雷达,主要用于工业领域和安全防护领域,其他三个厂商生产的激光雷达一般用于三维测距。
Velodyne、Quanergy的激光雷达主要用于无人驾驶汽车,Ibeo的激光雷达受限于线型和精度,主要应用于ADAS系统。
这三家激光雷达厂商都已经和一些无人驾驶汽车研究机构、车厂或Tier1的汽车供应商建立了合作关系。
Velodyne已经和福特建立了合作关系,并且谷歌无人车、百度无人车和一些高校的无人驾驶汽车研究团队都使用的
Velodyne公司的产品;Quanergy已经和汽车电子系统TIER1供应商德尔福展开合作;
Ibeo也与汽车电子系统TIER1供应商法雷奥有合作关系。
在国外,激光雷达已经成为民用领域的“宠儿”,但市场份额大多被诸如瑞士
Leica、加拿大Optech、奥地利Riegl、美国Trimble等老牌测绘企业占据。
相比于国外企业已经具有相对成熟的成型产品,且已经和相关公司展开合作,国内公司在激光雷达的研发和生产上则只是刚刚起步。
目前,国内研发生产激光雷达的公司主要有3家:
华达科捷和欧镭激光(都是巨星科技子公司)、镭神智能、思岚科技、北醒光子。
激光雷达的下游应用领域核心是无人驾驶汽车、服务机器人、无人机和工业测绘领域等。
从目前全球激光雷达企业的下游应用领域分布来看,居多的仍然是智能汽车和机器人领域,传统的测绘领域中,也有一批3D激光扫描仪的企业,转型向更具成长性的机器人和无人驾驶领域。
2016年有望迎来激光雷达的发展元年。
按照目前的发展速度,激光雷达率先放量的领域是扫地机器人,核心原因在于扫地机器人的第一代产品已经非常成熟,拥有了核心的用户
市场。
随着2016年市场上核心厂商都开始加装激光雷达,扫地机器人领域的激光雷达需求有望率先爆发。
其次为无人机、室内服务机器人、AR增强产品和无人驾驶汽车。
根据我们草根了解的情况,目前国内扫地机器人领域主要的厂商,在新一代的产品中,都利用激光雷达的方式替换了传统的随机碰撞式扫地机器人。
科沃斯、银星智能等国内品牌也都开始研发带自动导航系统的产品。
目前,全世界仅有日本、德国等少数几个企业有能力生产激光雷达,但其价格都不低,百度、谷歌无人汽车采用的激光雷达,成本在2-8万美元,价格几乎与汽车本体相当,一般服务机器人很难承受如此昂贵的元器件。
影响激光雷达价格的主要有两大要素:
线束数量和采购量。
通常线束越高,激光雷达的价格越高。
采购量越大,价格越低。
Quanergy公司通过降低线束维度,逐步使用固态激光雷达,让成本降低到了250美元左右,国内企业思岚科技,可以在采购量超过1万台
左右的量时,单线束的价格可以降低到1000元以内。
随着终端用户的产品放量,激光雷达的产业化将会带动价格打破瓶颈区域。
3.交互模块:
语音达商用门槛,语义理解亟待提升
1.智能语音技术已经达到商用门槛
语音语义发展历经三阶段,规则阶段进展甚微,统计阶段第一次爆发,深度学习是第二次爆发。
20世纪50年代到70年代,在语音识别领域由规则主导,瓶颈无法破除发展缓慢,IBM几百个词70%的识别度;20世纪70年代到20世纪末,发展迅速,统计与规则角力,并逐步解决语音识别、词性分析、句法分析问题;21世纪初,由于计算能力增强语音技术有了重大突破,2006年至今,深度学习继续在语音识别领域完善。
2.语义理解仍需时日,静待深度学习算法突破
自然语言处理(NLP):
词法和句法基本解决,语义目前仅是浅层处理。
NLP分析技术大致分为三个层面:
词法分析、句法分析和语义分析。
1)词法分析
词法分析包括分词、词性标注、命名实体识别和词义消歧。
分词和词性标注好理解。
命名实体识别的任务是识别句子中的人名、地名和机构名称等等命名实体。
每一个命名实体都是由一个或多个词语构成的。
词义消歧是要根据句子上下文语境来判断出每一个或某些词语的真实意思。
2)句法分析
句法分析是将输入句子从序列形式变成树状结构,从而可以捕捉到句子内部词语之间的搭配或者修饰关系,这一步是NLP中关键的一步。
目前研究界存在两种主流的句法分析方法:
短语结构句法体系,依存结构句法体系。
其中依存关系句法体系现在已经成为研究句法分析的热点。
依存语法表示形式简洁,易于理解和标注,其可以很容易的表示词语之间的语义关系,比如句子成分之间可以构成施事,受事,时间等关系。
这种语义关系可以很方便的应用鱼语义分析和信息抽取等方面。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 服务 机器人 调研 报告 重要