室内环境下的3D 目标检测调研

技术2026-02-02 6

任务：

调研室内场景下基于单帧图像的3D目标检测的研究情况。

思路：

首先了解相关数据集，benchmark，在数据集的基础上比较不同算法。

1. 室内场景的3D数据集

sunrgbd：室内场景，3D目标检测

scannet：室内场景，3D实例分割（3D实例标签在三个方向上取最小值和最大值，可以得出3D bounding box）

kitti: 道路场景，不是室内

Pix3D: 主要是物体3D模型重建，不是目标检测

ModelNet40: collection of 3D CAD models for objects, 不是真实环境

SUNCG: 用虚拟场景渲染单个视角的彩色深度和语义，主要拿来做基于单帧图像的语义场景修复

NYU Depth Dataset V2: 语义分割

S3DIS: 室内环境的3D扫描模型，偏向语义分割，可用来做目标检测

对比以上这些3D数据集，可直接用于室内3D目标检测的数据集为 sunrgbd 和 scannet，所以用这两个数据集为标准，评价室内3D目标检测的模型性能。

参考文档：

数据集合集介绍：https://www.sohu.com/a/317394935_100007727

这篇文章里面有比较一些数据集：https://openaccess.thecvf.com/content_ICCV_2019/papers/Wald_RIO_3D_Object_Instance_Re-Localization_in_Changing_Indoor_Environments_ICCV_2019_paper.pdf

2. 一些论文网站

CVPR：https://dblp.uni-trier.de/db/conf/cvpr/index.html

CVPR2020：https://openaccess.thecvf.com/CVPR2020_search

ECCV2020：https://eccv2020.eu/accepted-papers/

ICCV2019：https://openaccess.thecvf.com/ICCV2019

3. 一些博客

https://blog.csdn.net/weixin_40805392/article/details/105618481 描述了CVPR2020 3D目标检测

https://blog.csdn.net/weixin_44125273/article/details/106420482 整理了CVPR2020部分论文

4. 比较模型

mAP@0.25

模型代码是否开源RGB

SUN RGB-D V1

ScanNet V2作者，单位来源VoteNet是without57.7% 58.6%FaceBook, 斯坦福大学ICCV2019VoteNet是with56.3% FaceBook, 斯坦福大学ICCV2019ImVoteNet 否with63.4% FaceBook, 斯坦福大学CVPR2020MLCVNet是without59.8%64.5%南京大学, 卡迪夫大学CVPR2020Density Based Clustering否with57.2%

新加坡国立大学

CVPR2020

Multi-Scale EPN

(Edge-Aware PointNet)

否with64.9%

新加坡国立大学

CVPR2020HGNet否without61.6%61.3%浙江大学CVPR2020SESS是without61.1%62.1%

新加坡国立大学

CVPR2020Total3DUnderstanding否

26.38%

(标准不同

mAP@0.15)

厦门大学, 深圳大数据研究所CVPR2020Transferable Semi-Supervised否 40.6% 新加坡国立大学ICCV2019Generative Sparse Detection Networks否 62.84%斯坦福大学, NVIDIAECCV2020H3DNet是without60.1%67.2%德克萨斯大学奥斯汀分校ECCV20203D Object Detection Using a Learned Loss否 50.2%伦敦大学ECCV2020

3D-BoNet

是

68.7%(mAP@0.25)

43.9%(mAP@0.5)

牛津大学, DeepMindCVPR2019

Processed: 0.015, SQL: 9