这个比肩ImageNet的数据集遭MIT紧急下架,原因令人愤怒

    技术2022-09-01  87

    萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI

    就在这周,麻省理工学院紧急下架了Tiny Images数据集。

    原因很简单,有学者研究指出,这个通过大量搜索引擎整合的数据集,内里竟然隐藏着诸多令人不齿的标签:儿童猥亵、性暗示、种族歧视……(文末附论文链接)

    而这些图像的标签(b***h,w**re),则带有强烈的偏见和反人道的意味。

    △ 从统计数据来看,包含这类标签的图片达成千上万张

    如果含有这样的标签和图像的数据集被用于训练AI,后果将不堪设想。

    然而局面似乎已经无法挽回:由于这个数据集主打微小图像,且图片数量庞大,在当年计算机硬件还不发达时,曾被广泛用于AI训练,在arXiv上属于高引用论文。

    Reddit上针对此事的说法不一。

    有网友认为,这件事有点小题大做的意思。毕竟这些通过网络搜集到的图片、文本信息,也是真实世界的一部分。

    在我看来,这有点「道德恐慌」了。难道会有人觉得用来训练GPT-3的接近1TB的开放式网络文本信息里没有任何冒犯性的内容?

    但也有支持的网友拍手称快。

    MIT干得好!

    除了这类情绪化的观点,很多人也开始理性思考这种数据集形成的原因。

    这是不是制作数据集的作者们无暇抽空检查导致的?

    这些机器学习的研究人员在处理图像的时候,难道不会设置一下搜索过滤吗?就我经验来看,有些制作不精的数据集在没时间检查的情况下就发布了。

    很快有网友否认了这种观点,因为Tiny Images不属于这种情况。

    我认识原作者,情况不是你想的那样。我觉得,作者只是没有像我们今天这样考虑这么多,他们在利用搜索引擎整合图片的时候,可能没想过要对标签列表进行过滤。

    无论网友抱持有何种观点,目前这个数据集的下架都已是不争的事实。

    哪怕是比Tiny Images更有影响力的数据集ImageNet,在这次研究中也被指出存在部分令人不适的图片,但没有Tiny Images数量这么庞大。

    有学者指出,ImageNet维护者众多、且图像分类明确,与之相比,Tiny Images则几乎从未被仔细检查过。

    到底是什么原因,使得这么多年来,Tiny Images数据集一直少有人工清查?

    这个问题,可能还得从Tiny Images自身的特性说起。

    Tiny Images数据集的特点

    Tiny Images数据集自2006年问世后,至今已包含5万多个WordNet中的不同标签。

    数据集中的图像,来源于搜索引擎搜索标签、并自动下载所搜到的图片。

    整理后的图像数量达8000万张,每张都以非常低的分辨率(32×32)保存在数据集中,形成了Tiny Images数据集的特色:数量庞大,图像微小。

    然而,正是由于图像数量过于庞大,导致这些令人反感的图像隐藏太深;而低分辨率,则会导致这些图像难以被视觉识别。

    △ 在Tiny Images中,含贬义的「nigger」标签下的图片

    下架时,麻省理工学院给出了官方说明。

    由于我们无法保证,能彻底删除Tiny Images中所有令人反感的图像,所以将它下线了。

    同时,也希望网上不要再传播已有的Tiny Images数据集副本。

    将Tiny Images下架的最重要的原因,是因为这些带有强烈偏见的、令人反感的标签所标注的图像,与我们计算机视觉行业致力于达成的包容、无偏见的价值观背道而驰。

    不仅如此,采用这些标签进行训练后的AI模型,可能会在图像分类或目标检测时,将这些隐含的反人道标签用于目标识别中。

    为什么会使AI产生偏见

    无论是Tiny Images还是ImageNet,这次都栽在了一个叫WordNet的分类词库上。

    词库以其强大的词义关联性著称,会根据各种单词的意义,将不同的词组成各式各样的集合,最终构成一个词库网。

    例如,WordNet会将「比基尼」、「色情」和「whore」(贬义)等单词关联到一起,如果在搜索引擎上进行图像搜索,所获得的图片会带有强烈的偏见色彩。

    △ 「whore」标签的图像下可能仅仅是一个穿着比基尼的女人

    不可避免的是,WordNet中会收录许多带有贬义和偏见标签的图片,如果在使用这些图片进行训练时,没有对标签进行过滤,训练后的AI就可能会利用这些标签,戴上「有色眼镜」识人。

    ImageNet以其知名度和做得较好的图像分类,较为幸运地得到了比较良好的维护,与之相比,Tiny Images中许多带贬义标签的图像却因为低分辨率难以被识别。

    这就导致了这次的紧急下线。

    但正如某些网友所说,无论如何,制作无任何偏见的数据集,本身就是良好的AI训练不可或缺的一部分。

    目前,许多最新的数据集也在不断致力于以各种方式,接近这种「无偏见」的目标。

    Tiny Images作者介绍

    △ 作者Antonio Torralba

    Antonio Torralba,麻省理工学院的副教授,主要研究方向为计算机视觉和机器学习,Tiny Images是他与另外两位作者,经过8个月时间整理出来的微型图像数据集。

    传送门

    参考链接

    https://www.theregister.com/2020/07/01/mit_dataset_removed/

    论文链接

    https://arxiv.org/abs/2006.16923

    — 完 —

    本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

    特惠福利 | 一站式音视频解决方案

    想赶上直播电商、在线教育、小程序直播的风口?腾讯云音视频解决方案为您助力!

    腾讯云推出9.9元产品体验包,包括云点播、云直播、实时音视频,总有一款适合你。识别二维码即可体验:

    量子位 QbitAI · 头条号签约作者

    վ'ᴗ' ի 追踪AI技术和产品新动态

    喜欢就点「在看」吧 !

    Processed: 0.015, SQL: 9