对话顶会、解读最佳：CVPR 2020最佳论文对CV领域的启发

技术2024-12-16 78

AI TIME欢迎每一位AI爱好者的加入！

CVPR 2020已落下帷幕，共计投稿6656篇，录用1470篇，涵盖的方向包括目标检测、目标跟踪、图像分割、人脸识别、姿态估计、三维点云、视频分析、模型加速、GAN、OCR等。对话顶会，探索最新学术进展，本次分享AI TIME特地邀请到CVPR 2017最佳论文得主、世界人工智能大会 Super AI Leader（SAIL）先锋奖得主、来自清华大学自动化系的黄高老师为大家解读本届CVPR“最佳论文”和“最佳学生论文”背后蕴含的亮点，深入剖析其核心思路、创新点，谈谈它们对CV领域的启发。

CVPR 2020最佳论文解读

在严苛的录取标准下，《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》荣获CVPR 2020最佳论文称号，其第一作者为牛津大学视觉几何组博士生吴尚哲。

图像是如何得来的？图像是由相机对着物体拍摄形成的，拍摄的过程涉及视角选择问题比如俯视还是仰视。本届最佳论文的亮点就在于给定一张图像，它可在解构拍摄视角的同时，将其深度（3D）、光照等分解出来，真实可靠地“还原”出物体原始面貌。

一般而言，对于3D重建是需要监督的，也就是需要各种形式的ground truth（真值、真实的有效值或者是标准的答案），例如多视角、深度图、轮廓、关键点等信息。不同于人类，对计算机而言深度估计极具挑战性。

以自动驾驶为例，为估计场景深度，需在车上安装双目摄影头，同时还需结合激光雷达，用其测距得到ground truth。基于摄相机得来的图像数据，利用雷达获得的深度作为ground truth训练深度模型。当训练数据足够多，模型训练成功以后，才可基于双目图像估计出深度图。

区别以往依靠双目图像训练模型，本届最佳论文的亮点是考虑了一个具有挑战性的问题：能否只使用单目的图像估计3D对象，并且采用无监督的方式？其意义在于现实中使用有监督的方式成本可能是高昂的，且双目图像相对比较少，而单目图像却大量存在。

基于以上思路，作者提出了一种新的方法——Photo-Geometric Autoencoding，可解构给定图像的视角、深度、texture等维度，再经过组合渲染，重构3D模型。其大致想法是构成一个闭环，闭环的好处是可获得监督信号，但问题是简单直接地实现可能最终得到退化解。

Question1

问题一：如何避免退化解？

答：施加对称性约束。

对称性可来源于物体的水平翻转，其模型处理流程如下图所示。

构造对称虽然可以解决退化解问题，但是现实世界并不总是完美对称的，譬如同一物体上的光照、发型等细节，因此还需要进一步完善工作。

Question2

问题二：如何处理非对称的光照？

答：对反射率施加对称性约束。

Question3

问题三：如何处理非对称反射率、变形等？

答：推理物体中潜在的不对称。

解决好以上三个问题，是本篇论文的核心工作。通过Photo-Geometric Autoencoding方法，不仅可对真人头像进行重建，还可对写实绘画、抽象作品、动物等进行重建，足以证明模型的强大性。

在黄老师看来，这篇论文可以获得最佳论文有几个关键的亮点因素：（1）其工作致力于3D重建；（2）可将单目2D图像转换为3D；（3）采用无监督学习的方式；（4）结合了计算机图形学。同时论文撰写优秀，论文的想法很重要，但也不能忽视文章的构思以及写作的切入点。

CVPR 2020最佳学生论文解读

CVPR 2020的最佳学生论文奖由来自西蒙弗雷泽大学和谷歌研究院的三位研究者摘得，获奖论文是《BSP-Net: Generating Compact Meshes via Binary Space Partitioning》，即通过BSP（Binary Space Partitioning，二叉空间分割）构建紧凑的3D网格。

这篇论文介绍了多边形网格在深度学习特别是3D形状生成中的运用。多边形网格在数字 3D 领域中无处不在，但它们在深度学习革命中仅扮演了次要角色。学习形状生成模型的领先方法依赖于隐函数，并且只能在经过昂贵的等值曲面处理过程后才能生成网格。为了克服这些挑战，该研究受计算机图形学中经典空间数据结构BSP的启发，来促进3D学习。

BSP的核心思想是对空间进行递归细分以获得凸集。通过利用此属性，作者设计了BSP-Net，该网络可通过凸分解学习表示3D形状。重要的是，BSPNet无需监督，因为训练过程中没有凸形分解。该网络的训练目的是，为使用基于一组平面构建的 BSPtree 获得的一组凸面重构形状。

通过BSPNet训练的凸面可以轻松提取以形成多边形网格，而无需进行等值曲面处理。BSP-Net的主要功能和设计方向是自动生成最少的多边形，合成外形尽量完美、真实的三维物体。对同一个二维或者三维图形物体进行重建，和此领域其它神经网络模型相比，BSP-Net 所用的多边形数量显著更少，镶嵌效果更好。

关于CV发展的趋势的探讨

在解读完最佳论文和最佳学生论文以后，关于这两篇论文对CV领域发展的启发，黄老师抛出了一些自己的观点。

面向的任务

CV未来的面向的任务，黄老师认为比较重要的有两个大的方向：3D和Video。计算机视觉是一门研究如何使机器“看”的科学，为的就是模拟人类视觉，解决人类视觉可以完成的事情。

为什么说3D重要，是因为我们生存的世界是三维的，人类视觉系统就是在处理3D场景的过程中建立起来的。除此之外，目前我们已经有途径可收集到很多双目的图像（多摄像头手机拍摄的图片），甚至本身带有深度的数据。数据的丰富，计算能力的提升，为3D的发展提供了强大支撑。

从Video维度来说，世界是动态的，人们希望可以用动态的视频处理事情。依然以自动驾驶为例，如果其对图像一帧一帧地进行分析，不仅浪费严重，而且不够精准。人光看一张图像可能会错失细节，但连着看的话，能将东西认识得更为细致。Video一个天然的特点是连续两帧之间存在持续相关性，而相关性可以与当前热门的无监督/自监督学习结合起来进行研究。

解决问题的办法

1.Holistic

Holistic代表着完整的、全盘的。常见的视觉任务包括分类、物体检测、语义/实例分割、3D重建等。人类的视觉系统在面向视觉任务时，可以同时全面考虑问题，而非像计算机一样需要拆成若干子任务进行处理。未来对视觉的研究，可模拟人类处理时的方式，将各类子任务融合成一个大任务。

2.Cross modality（跨模态学习）

在医学领域，医生做病情诊断时，除了观察CT、X光等得到医学影像，还会借助病人病史、化验结果、问询等了解其他信息，这个过程就可以称为跨模态学习。为完成一个最终目标，可能会需要很多其他模态信号加以辅助，视觉任务亦是如此。例如将视频里面的声音与图像进行互监督学习，常见的有篮球、足球等体育比赛中，解说与画面的配合。解说语音提供了很多标签，利用这些标签可帮助训练视觉模型。从大的AI角度来说，视觉未来定会和更多其他模态的数据进行融合。

3.X learning

Self-supervised learning、Unsupervised learning、Meta learning、Life-long learning、Robust learning、Transfer learning等机器学习领域的方法，都有可能在未来视觉研究领域中发挥巨大的作用，催生新的研究方向。

最终目标

1.Weak supervision

2.Robust

3.Intelligent

对话顶会、解读最佳、碰撞思维、寻求启发，感谢黄老师的精彩解读以及独到观点，在分享自身见解的同时也启发了大家对于CV领域的思考。希望本次分享对大家的CV学习之路有所帮助，我们下次分享见！

整理：何文莉

审稿：黄高

AI Time欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你，请将简历等信息发至yun.he@aminer.cn！

微信联系：AITIME_HY

AI Time是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

（点击“阅读原文”下载本次报告ppt）

（直播回放：https://b23.tv/jnxH2A）

Processed: 0.022, SQL: 9