室内环境下的3D 目标检测调研

    技术2026-02-02  6

    任务:

    调研室内场景下基于单帧图像的3D目标检测的研究情况。

    思路:

    首先了解相关数据集,benchmark,在数据集的基础上比较不同算法。

    1. 室内场景的3D数据集

    sunrgbd:室内场景,3D目标检测

    scannet:室内场景,3D实例分割(3D实例标签在三个方向上取最小值和最大值,可以得出3D bounding box)

    kitti: 道路场景,不是室内

    Pix3D: 主要是物体3D模型重建,不是目标检测

    ModelNet40: collection of 3D CAD models for objects, 不是真实环境

    SUNCG: 用虚拟场景渲染单个视角的彩色深度和语义,主要拿来做基于单帧图像的语义场景修复

    NYU Depth Dataset V2: 语义分割

    S3DIS: 室内环境的3D扫描模型,偏向语义分割,可用来做目标检测

    对比以上这些3D数据集,可直接用于室内3D目标检测的数据集为 sunrgbd 和 scannet,所以用这两个数据集为标准,评价室内3D目标检测的模型性能。

    参考文档:

     

    数据集合集介绍:https://www.sohu.com/a/317394935_100007727

    这篇文章里面有比较一些数据集:https://openaccess.thecvf.com/content_ICCV_2019/papers/Wald_RIO_3D_Object_Instance_Re-Localization_in_Changing_Indoor_Environments_ICCV_2019_paper.pdf

    2. 一些论文网站

    CVPR:https://dblp.uni-trier.de/db/conf/cvpr/index.html

    CVPR2020:https://openaccess.thecvf.com/CVPR2020_search

    ECCV2020:https://eccv2020.eu/accepted-papers/

    ICCV2019:https://openaccess.thecvf.com/ICCV2019

    3. 一些博客

    https://blog.csdn.net/weixin_40805392/article/details/105618481  描述了CVPR2020 3D目标检测

    https://blog.csdn.net/weixin_44125273/article/details/106420482 整理了CVPR2020部分论文

    4. 比较模型

    mAP@0.25

    模型代码是否开源RGB

    SUN RGB-D V1

    ScanNet V2作者,单位来源VoteNet是without57.7% 58.6%FaceBook, 斯坦福大学ICCV2019VoteNet是with56.3% FaceBook, 斯坦福大学ICCV2019ImVoteNet 否with63.4% FaceBook, 斯坦福大学CVPR2020MLCVNet是without59.8%64.5%南京大学, 卡迪夫大学CVPR2020Density Based Clustering否with57.2% 

     

    新加坡国立大学

    CVPR2020

    Multi-Scale EPN

    (Edge-Aware PointNet)

    否with64.9% 

     

    新加坡国立大学

    CVPR2020HGNet否without61.6%61.3%浙江大学CVPR2020SESS是without61.1%62.1%

     

    新加坡国立大学

    CVPR2020Total3DUnderstanding否 

    26.38%

    (标准不同

    mAP@0.15)

     厦门大学, 深圳大数据研究所CVPR2020Transferable Semi-Supervised否 40.6% 新加坡国立大学ICCV2019Generative Sparse Detection Networks否  62.84%斯坦福大学, NVIDIAECCV2020H3DNet是without60.1%67.2%德克萨斯大学奥斯汀分校ECCV20203D Object Detection Using a Learned Loss否  50.2%伦敦大学ECCV2020

    3D-BoNet

    是  

    68.7%(mAP@0.25)

    43.9%(mAP@0.5)

     

    牛津大学, DeepMindCVPR2019
    Processed: 0.015, SQL: 9