论文浏览(14) STM: SpatioTemporal and Motion Encoding for Action Recognition

技术2022-07-16 89

文章目录

0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题

0. 前言

相关资料： arxivgithub论文解读论文基本信息领域：行为识别作者单位：浙大&商汤发表时间：2019.8

1. 要解决什么问题

当时的行为识别SOTA模型一般都会提取两种特征时空特征（Spatiotemporal features）：期望编码不同帧中空间特征的相互关系运动特征（motion features）：期望提取相邻帧中的运动特征作者将当前的行为识别模型分为两类：双流法：一般通过RGB+2D CNN提取空间（而非时空）特征，通过光流+2D CNN提取时间特征（temporal cues）作者认为光流+2D CNN不能提取long-term temporal features 3D CNN：通过3D CNN来提取时空特征。从理论上看，3D CNN可以提取 Long-term temporal features。但3D CNN参数量太大，需要较多计算资源

2. 用了什么方法

完全不使用3D CNN。提出了两个基本结构CSTM&CMM CSTM，全称 Channel-wise SpatioTemporal Module 用于快速提取时空特征。主要过程就是reshape后在T维度上进行1D卷积操作。注意，这里使用的channel wise卷积，应该就是depthwise卷积的意思吧。可以把这种卷积看做是分组卷积的极端情况。 CMM，全称 Channel-wise Motion Module 用于提取动作特征主要过程就是先用2D卷积提取每一帧的特征，然后对相邻帧的特征进行融合，concat后得到最终结果。使用了一个类似于ResNet的结构，通过CSTM/CMM来构建整体网络

3. 效果如何

结果很好，在若干数据集上都达到了SOTA。时间性能上的对比，感觉速度不如TSM，但accruacy有较大提升

4. 还存在什么问题

作者说了不会开源。

用在online demo上可能没有什么优势。

Processed: 0.015, SQL: 9