CVPR 2020 《Local-Global Video-Text Interactions for Temporal Grounding》论文笔记

    技术2022-07-11  79

    目录

    简介动机贡献方法实验

    简介

    本文的作者来自浦项科技大学和首尔大学 下载链接

    动机

    在Grounding领域,早些的方法都可以归结为scan-and-localize framework,主要包括两个步骤:1. 生成proposals;2. 根据matching score进行选择。但是这一类方法存在很大的弊端:获得matching score的过程中,使用text query的全局特征,丢失了用于定位的细节信息。后续,有人对方法进行了改进,将此task视为注意力定位问题,通过回归解决。弊端:局限于最具有判别力的短语,没有对context进行全面的理解。

    贡献

    将text query分为多个短语,每个短语作为context,与video进行交互。从局部->全局,建模视频片段和短语的关系。实验结果,large margin。

    方法

    本文方法的整体框架如图所示。

    实验

    在Charades-STA数据集上的实验结果: 在ActivityNet Captions数据集上的实验结果: 在Charades-STA数据集上的消融实验:

    Processed: 0.019, SQL: 9