整理一下思绪,记录下近期学习和处理的一些信息。算是作为2020年的半年总结。
要快速的吸引或者打动用户,必须实时的唤起用户的情绪共情或者认知共情。个人以为,在短视频上的不知不觉的耗费的时间,是视觉和听觉的双重感官的配合下,唤起观看者的共情,推动停留时间的延长。(个人意见,不喜勿喷,可以讨论)。在不合适的时间选择了不合适的唤起共情的方式,可能会带来倍数增加的反感。例如,2011-6月,*哆哩在成都大面积投放了一组广告。【夕阳西下,恋人送别。一身白裙、头戴草帽的美女与昏黄的色调,构成一幅美丽的画卷。背景音乐响起,是《送别》的前奏。美女突然张口:“长亭外,古道边……天之涯,地之角……”唱得完全不在调子上,几度破音,头上的草帽还突然被风吹走了。男友当即哭了,转身跑了。后来,推着山地车的男友跑回来,用一块糖果把美女的嘴巴堵住,歌声才戛然而止。屏幕上出现广告词:“嘴闲着,特危险。”】 说句实话,视频中的女主倒是很养眼的,坏就坏在配乐上。一个跑调的《送别》,偏偏又是在全天播放,选择在6:30~22:00期间。造成了受众的集体投诉。我当时光是听到配乐,都心烦意燥,无心再去观看视频到底是什么。只想尽快逃离。
感受一下
每一首音乐都是小节组成,每一乐段都可能存在不同的音乐情感,可能是从舒缓到激昂,也可能是从悲伤到激昂。不同的小节组合,根据时域的循循渐进,逐步唤起听众的情绪共情。单纯的根据歌单里每首歌曲的流派,无法分析出歌单拥有者的实时情感。歌单只是一个较长时间的情感状态和音乐偏好,对于短时间内的实时情感不能体现。往往打动听众的可能只是音乐里的某一部分小节。根据查阅学习关于音乐情感的论文以及博文,对目前拥有的乐曲进行特征提取,但是由于特征提取过程中截取的小节会严重影响整首乐曲的情感分类。对于小节的划分,可以依据音符起始点检测,也可以根据固定时域划分为固定时长以及固定数量的小节。然后提取小节的音频特征,在这里我也不赘述什么是音频质心,短时能量,频谱差分,音高检查数据,过零率,频谱滚降等特征是什么了。这些定义可以去参考更详细的描述。
参照Thayer模型,如下图
根据唤醒度以及评价值的高低,形成一个二维的情感评价模型。一首悲伤的音乐往往其节奏也是舒缓的(平静的)。由于音乐本身的复杂特性,可能在提取特征判断后,并不能完美的匹配到Thayer的分类里。我之前用《二泉映月》作为测试例子去检查,得到最后的结果是,受测音乐只属于2个分类。而且一个分类下的百分比占到了58%,在类似平静的分类中42%。然后,我再用《消愁伴奏版本》送测,得到的分类,数量最多的一个分类与《二泉映月》所占42%的类似平静分类一致。但是占比并没有那么高。由于没有采用人工标注,而是全部来源于无监督学习后生成的数据,在转向有监督学习。我之前做了一个尝试,准备了五首平静和悲伤的歌曲(朴树的《送别》,毛不易的《无问》,《像我这样的人》,《消愁》,《独上西楼》),让人为去评判。最后得出来结果,确实不甚理想。因为人为的评判,带有很大的主观臆断。但是无监督分类带来的一个很大弊端,就是得到的分类样本,由于前期没有收集样本音乐情感的标准情感人工标签(grand truth),再通过后期的有监督学习后,对得到的受测音乐结果无法快速的甄别其情感分类的真实有效性。截止目前,都还在得到结果后,然后去听所属分类里的歌曲,去主观评价测试的结果。
由于样本里没有令人恐怖,愤怒的音乐,在对这类音乐进行情感辨别时其准确度也报以怀疑态度。我在网上随意的找到一首恐怖类的配乐(《闹鬼的地下室》),然后将其切片制作成测试样本,得出的分类。如下图
得到的分类数据,最多的是属于类似悲伤的。从Thayer情感模型可以看出,当Valence能量较低时,Arousal唤醒度较高时,会产生愤怒,焦虑的情感。同时,我将那首走音广告的音频提取了出来,进行检测。结果如下图:
它的代表评价值(valance)低的这个分类符合,也就是说明,在特征上第7个分类的数据,代表了评价值低的音乐小节。都有相同的分类,但是如何区分到底是愤怒还是焦虑,目前我还没有太好的方法。拟定的方向还是从特征数据中找不同和在分类数据中找差异。