机器人自主物体识别抓取方法研究文献综述

 2023-08-15 14:52:47
  1. 文献综述:

1:国内外研究现状

抓取检测是对一个给定的物体,找到一种满足任务需求的夹具抓取配置。通常将这个过程描述为找到一组能够在外界干扰条件下保持稳定的物体表面的接触点的集合。

在早期,机械臂不具备感知能力,需要通过手动控制机械臂和爪钳来进行抓取操作。在安装上触觉传感器之后,可以实现再现人手的抓取行为,但是这两种方法的智能化程度都很低。之后,在视觉传感器的帮助下,机器人可以通过基于视觉的系统来实现抓取过程。随着深度学习技术在计算机视觉领域的应用,和图像有关的任务已逐渐被其主导。根据训练的数据逐渐从RGB图像变为深度图像,提出了不同输入的深度学习网络,这极大的促进了机器人抓取的发展。

利用深度学习进行机器人抓取位姿检测,本质上试将抓取位姿检测变成了目标识别问题。目前以深度学习为基本的机器人抓取领域中,主要分为两个方向:Two Stage实现方法和End-To-End(端对端)实现方法[5],前者从输入的模态信息中利用某些算法生成候选抓取位姿,再通过深度学习构建神经网络来进行最优抓取位姿的检测;后者直接应用神经网络构建的模型,从输入的信息中生成最优抓取位姿。

基于深度学习的抓取方法将整个抓取的过程分为三个部分:图像感知、抓取位姿检测和抓取执行。即模型学习的是图像数据到抓取位姿的映射关系,再通过控制器规划抓取姿势和执行抓取动作。完成抓取位姿检测的过程可以描述成:给定大量的数据集,训练一个检测器的算法模型,将模型的输出结果作为抓取位姿的表示。

基于深度学习的抓取方法需要通过大量的数据集来学习可抓取位置的特征,以此来得到算法的模型。在图像分类和目标检测领域的深度学习中,编注训练数据的存在很大程度上决定了成功与否。数据集一般分成两类:第一种是由仿真环境生成的数据集,其生成的方式较为简单,且规模上来说比较大,这类数据都属于仿真的数据,泛化的能力相对较弱,在实际过程中常常会因为相机采集的图像噪声等因素形成一定的误差。例如Mahler等人[6]使用仿真的方法生成了Dex-Net2.0数据集,其包含1500种物体模型、670万点云,以及根据数据基础实物拍摄的数据集;Kumra等人[7]通过对物体的3D模型产生大量的训练数据。另一类是由实物拍摄生成的数据集,虽然其与实际的结果更为符合,但是因为需要手工进行标注,所以规模较小。这其中具有代表性的Lenz等人[8]通过Kinect相机达到的康奈尔抓取数据集,这个RGB-D图像数据集包括了240种物体,885张图片和8019个标记的数据;之后,Redmon等人[9]提出迁移学习的方法,即先通过ImageNet的大型数据集来进行预训练,再使用康奈尔抓取数据集进行微调,来达到避免过度拟合的目的。

一个抓取检测的模型主要建立的是从图像的信息到抓取位姿的一种映射关系,一个抓取检测算法的鲁棒性和准确性都是由模型的特征学习能力和泛化的能力来决定的。

Mahler等人开发了一种深度抓取质量卷积神经网络模型,通过在数据集Dex-Net2.0上训练,来对候选抓取规划和点云估算抓取进行测试。通过对候选抓取方法采样,利用GQ-CNN模型估计最佳鲁邦性的抓取。由于数据集的规模较大,该模型的准确度较高。但是因为考虑的是没有相机噪声和机械变形的理想情况,和实际情况有较大的差距。

和该方法的思路相似,Len等人使用稀疏自动编码机提取特征。通过多层感知机来学习特征和分类,使用人工神经网络ANN[10]来分类。采用滑动窗方法,检验局部区域的可抓取性。由于该方法的计算量较大,所以检测速度比较缓慢。

Redmon等人使用卷积神经网络作为检测模型,减少了通过滑动窗的重复计算,一次性达到结果,同时,运用迁移模型的方法,解决了由于训练数据过少导致的过拟合问题。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

发小红书推广免费获取该资料资格。点击链接进入获取推广文案即可: Ai一键组稿 | 降AI率 | 降重复率 | 论文一键排版