官网:https://www.crcv.ucf.edu/research/data-sets/ucf101/
网盘:链接:https://pan.baidu.com/s/1RsJuykWyUlQ4_c1TwqxR_Q 提取码:909g
UCF101是一个现实动作视频的动作识别数据集,收集自YouTube,提供了来自101个动作类别的13320个视频。
该数据集是UCF50数据集的扩展,UCF50数据集有50个动作类别。
UCF101在动作方面提供了最大的多样性,并且在摄像机运动、对象外观和姿态、对象规模、视点、杂乱的背景、照明条件等方面有很大的变化。
101个动作类别中的视频被分成25组,每组可以包含一个动作的4-7个视频。同一组的视频可能有一些共同的特点,比如相似的背景,相似的观点等等。
包括5大类动作 :
人与物体交互单纯的肢体动作人与人交互演奏乐器体育运动这些类别有:
化眼妆、涂唇膏、射箭、婴儿爬行、平衡木、乐队游行、棒球、打篮球、扣篮、卧推、骑自行车、台球、吹干头发、吹蜡烛、下蹲、保龄球、拳击、出气筒、蛙泳、刷牙、挺举、悬崖跳水、保龄球、板球、潜水、打鼓、击剑、曲棍球、体操、飞盘、爬泳、高尔夫挥杆、理发、扔链球、锤击、倒立俯卧撑…
注意:在训练和测试时,将属于同一组的视频分开是非常重要的。由于一组视频是由单个的长视频获得的,因此在训练和测试集中共享同一组的视频会获得较高的性能。
101个动作:
总时长与平均时长:
时长频次:
解压后就是分类数据集的标准目录格式,二级目录名为人类活动类别,二级目录下就是对应的视频数据。
每个短视频时长不等(零到十几秒都有),大小320*240, 帧率不固定,一般为25帧或29帧,一个视频中只包含一类人类行为。
预处理时需要将UCF101中的视频保持结构不变逐帧分解为图像。
相同的活动下,有不同的视频是截取自同一个长视频的片段,即视频中的人物和背景等特征基本相似。
1中的视频保持结构不变逐帧分解为图像。
相同的活动下,有不同的视频是截取自同一个长视频的片段,即视频中的人物和背景等特征基本相似。
因此为了避免此类视频被分别划分到train和test集合引起训练效果不合实际而精度过高,UCF提供了标准的train和test集合检索文件,有三种数据集划分方案,C3D论文中选择的方案是第三种。