达芬奇机器人变身‘模仿达人’，通过看视频模仿手术缝合、穿针、打结等动作...

技术2024-12-17 91

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

模仿是最原始的学习方法，也是实现人工智能的基石。
通过深度学习和算法，机器人也可以通过看视频学会各种各样的技能。
先看个图：
是不是觉得有点眼熟。
没错，它就是技艺高超，被大家所熟知的达芬奇机器人。
这次它又被赋予了新功能：通过观看教学视频，学会外科手术中的相关任务。比如缝合，穿针，以及打结等动作。
让达芬奇机器人变成‘模仿艺人’的关键，是一个叫做Motion2Vec的半监督式学习算法，近日由谷歌大脑，英特尔公司和加利福尼亚大学伯克利分校合作开发。
起初，加州大学伯克利分校的教授曾使用YouTube视频作为机器人学习各种动作（例如跳跃或跳舞）的指南。机器人模仿视频中的动作，成功学习了20多种杂技，比如侧空翻、单手翻、后空翻等高难度动作。
谷歌此前也有过相关研究，例如使用视频来教授四足机器人学习狗狗的灵活动作。
这些经历促成了他们彼此的合作，他们将这些知识应用于最新项目Motion2Vec中，在这个过程中，使用了实际手术过程的视频进行指导和训练。
在最近发布的论文中，研究人员概述了他们如何使用YouTube视频训练两臂的达芬奇机器人在织布机上插入针头并进行缝合。
人类在看视频的时候可以迅速理解内容，但机器人目前无法做到这一点，它们只是将其视为像素流。因此，要以机器人的方式让他们理解并学习——弄清并分析这些像素，然后将视频分割成有意义的序列。
事实上，Motion2Vec算法的开发主要基于暹罗网络和递归神经网络。
暹罗网络（Siamesenetwork）就是“连体的神经网络”，神经网络的“连体”是通过共享权值来实现的。它的主要功能是衡量两个物体的相似度。比如，看看某两个人长得像不像。
这样，研究人员就可以将视频中相同动作段的图像放到一起，并给它们做一个标记，比如‘针头插入’，或‘瞄准位置’等，从而对视频中的图像进行分割和分类。
然后，研究人员使用递归神经网络来找到那些没有被标记的图像，这些图像会反馈到暹罗网络中以改善动作片段的比对。
对于缝合任务，研究团队仅需要78个教学医学视频即可训练其AI引擎执行该过程，成功率为85％。
这似乎意味着机器人可以在外科手术中承担一些更基本，重复性的任务，但它们目前还无法完全代替医生来做手术。
加州大学伯克利分校实验室的负责人KenGoldberg解释说“我们想要看到的是，机器人在做基本缝合任务，而外科医生能够监视手术过程，比如像机器人表明他们想要在哪一排进行缝合，或传达出希望进行六次覆膜缝合的想法。” “这样，机器人能代替外科医生做最基本的任务，让医生们得到更多的休息，并能够专注于手术中更复杂或更细微的部分。”
论文直通车
论文题目：
Motion2Vec:Semi-Supervised Representation Learning from Surgical Videos
论文链接：
http://www.ajaytanwani.com/docs/Tanwani_Motion2Vec_arxiv_2020.pdf
项目来源：
https://sites.google.com/view/motion2vec
END
推荐阅读：

专辑|相机标定
专辑|3D点云
专辑|SLAM
专辑|深度学习与自动驾驶
专辑|结构光
专辑|事件相机
专辑|OpenCV学习
专辑|学习资源汇总
专辑|招聘与项目对接
专辑|读书笔记

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近1000+星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题

3Ｄ视觉工坊认证博客专家算法 3D视觉个人公众号：３D视觉工坊。公众号特邀嘉宾及合伙人，先后就职于国内知名研究机构、自动驾驶公司、海康研究院，主要研究方向为深度学习、目标检测、语义分割、图像处理、自动驾驶感知算法等，博客专家。博主先后任职于国内知名研究院、知名大厂，致力于3D视觉算法、VLAM算法开发，涉及相机标定、手眼标定、结构光、点云后处理、三维重建等相关领域的研究，同时也是博客专家。3D视觉工坊坚持原创，近一年来输出了非常多的高质量文章，获得了粉丝的一致好评，我们将始终坚持走原创路线，打造一个铁杆粉丝的聚集区。

Processed: 0.013, SQL: 9

达芬奇机器人变身‘模仿达人’，通过看视频模仿手术缝合、穿针、打结等动作...

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题