新算法仅通过观看视频就能发现语言

DenseAV 算法仅通过关联音频和视频信号来学习语言的含义。图片来源:Mark Hamilton

麻省理工学院电气工程和计算机科学博士生、麻省理工学院计算机科学和人工智能实验室 (CSAIL) 成员马克·汉密尔顿 (Mark Hamilton) 希望利用机器来了解动物的交流方式。为此,他首先着手创建一个可以“从零开始”学习人类语言的系统。

“有趣的是,灵感的关键时刻来自电影《帝企鹅日记》。电影中有一个场景,一只企鹅在穿越冰面时摔倒了,站起来时发出一声痛苦的呻吟。当你观看它时,几乎可以肯定,这声呻吟代表了一个四个字母的单词。正是在那一刻,我们想到,也许我们需要使用音频和视频来学习语言。”汉密尔顿说。“有没有办法让算法整天看电视,然后从中弄清楚我们在说什么?”

“我们的模型 DenseAV 旨在通过根据听到的内容预测看到的内容来学习语言,反之亦然。例如,如果你听到有人说‘在 350 度下烤蛋糕’,那么你很可能看到的是蛋糕或烤箱。要想在数百万个视频的音频视频匹配游戏中取得成功,模型必须了解人们在谈论什么,”汉密尔顿说。

A 描述工作的论文 出现在 论文集 预印本服务器。

在他们训练 DenseAV 玩这个匹配游戏后,汉密尔顿和他的同事们开始观察模型在听到声音时寻找哪些像素。例如,当有人说“狗”时,算法会立即开始在视频流中寻找狗。通过查看算法选择了哪些像素,人们可以发现算法认为单词是什么意思。

有趣的是,当 DenseAV 听到狗叫时也会发生类似的搜索过程:它在视频流中搜索狗。

“这激起了我们的兴趣。我们想看看算法是否知道‘狗’这个词和狗叫声之间的区别,”汉密尔顿说。该团队通过给 DenseAV 一个“双面大脑”来探索这一点。有趣的是,他们发现 DenseAV 的大脑一侧自然专注于语言,比如“狗”这个词,另一侧专注于吠叫之类的声音。这表明 DenseAV 不仅学会了单词的含义和声音的位置,还学会了区分这些类型的跨模态连接,所有这些都不需要人工干预或任何书面语言知识。

其中一个应用分支就是从每天发布到互联网的大量视频中进行学习。

汉密尔顿说:“我们希望系统能够从大量视频内容(例如教学视频)中学习。另一个令人兴奋的应用是理解新的语言,例如海豚或鲸鱼的交流,这些语言没有书面交流形式。我们希望 DenseAV 可以帮助我们理解这些从一开始就逃避人类翻译努力的语言。最后,我们希望这种方法可以用来发现其他信号对之间的模式,例如地球发出的地震声和它的地质。”






图片来源:麻省理工学院

团队面临着一项艰巨的挑战:在没有任何文本输入的情况下学习语言。他们的目标是从一张白纸上重新发现语言的含义,避免使用预先训练的语言模型。这种方法的灵感来自于儿童通过观察和聆听周围环境来理解语言的方式。

为了实现这一壮举,DenseAV 使用两个主要组件分别处理音频和视觉数据。这种分离使算法无法作弊,因为视觉部分负责处理音频,反之亦然。它迫使算法识别物体,并为音频和视觉信号创建详细而有意义的特征。DenseAV 通过比较音频和视觉信号对来学习,以找出哪些信号匹配,哪些信号不匹配。这种方法称为对比学习,不需要标记示例,并允许 DenseAV 找出语言本身的重要预测模式。

DenseAV 与之前的算法之间的一个主要区别是,之前的研究只关注声音和图像之间的相似性这一单一概念。整个音频片段(例如某人说“狗坐在草地上”)与整张狗的图像相匹配。这使得之前的方法无法发现细粒度的细节,例如单词“草”与狗下面的草之间的联系。

该团队的算法会搜索并汇总音频片段和图像像素之间所有可能的匹配。这不仅提高了性能,还使该团队能够以以前的算法无法做到的方式精确定位声音。

“传统方法使用单一类别标记,但我们的方法会比较声音的每个像素和每一秒。这种细粒度的方法让 DenseAV 能够建立更详细的连接,从而实现更好的定位,”汉密尔顿说。

研究人员在 AudioSet 上训练了 DenseAV,其中包含 200 万个 YouTube 视频。他们还创建了新的数据集来测试该模型将声音和图像关联起来的能力。在这些测试中,DenseAV 在根据名称和声音识别物体等任务上的表现优于其他顶级模型,证明了其有效性。

“以前的数据集仅支持粗略评估,因此我们使用语义分割数据集创建了一个数据集。这有助于通过像素完美的注释来精确评估我们模型的性能。我们可以用特定的声音或图像提示算法并获得那些详细的定位,”汉密尔顿说。

由于涉及的数据量巨大,该项目耗时约一年。该团队表示,过渡到大型 Transformer 架构带来了挑战,因为这些模型很容易忽略细粒度的细节。鼓励模型关注这些细节是一个重大障碍。

展望未来,该团队的目标是创建能够从大量视频或纯音频数据中学习的系统。这对于存在大量视频或音频模式但不会同时存在的新领域至关重要。他们还计划使用更大的主干网来扩展这一系统,并可能整合来自语言模型的知识以提高性能。

“识别和分割图像中的视觉对象以及音频记录中的环境声音和口语本身都是难题。从历史上看,研究人员依靠昂贵的人工注释来训练机器学习模型来完成这些任务,”德克萨斯大学奥斯汀分校计算机科学助理教授 David Harwath 表示,他没有参与这项工作。

“DenseAV 在开发能够通过简单地通过视觉和声音观察世界来同时学习解决这些任务的方法方面取得了重大进展——基于这样的认识:我们看到和与之互动的事物通常会发出声音,我们也使用口语来谈论它们。该模型也不对所说的特定语言做出任何假设,因此原则上可以从任何语言的数据中学习。如果 DenseAV 能够将其扩展到多种语言的数千或数百万小时的视频数据,那么它将学到什么,这将是令人兴奋的。”

其他作者包括牛津大学计算机视觉工程教授 Andrew Zisserman、谷歌 AI 感知研究员 John R. Hershey 和麻省理工学院电气工程与计算机科学教授兼 CSAIL 首席研究员 William T. Freeman。

更多信息:
Mark Hamilton 等人,将“叽叽喳喳”与“聊天”区分开来:自监督的声音和语言视觉基础, 论文集 (2024)。 arxiv.org/abs/2406.05629

期刊信息:
论文集


由麻省理工学院提供


本文由麻省理工学院新闻转载(web.mit.edu/newsoffice/),一个报道麻省理工学院研究、创新和教学新闻的热门网站。

引用:新算法只需观看视频即可发现语言(2024 年 6 月 11 日)于 2024 年 6 月 12 日检索自

本文件受版权保护。除出于私人学习或研究目的的合理使用外,未经书面许可不得复制任何部分。内容仅供参考。

1718191174
#新算法仅通过观看视频就能发现语言
2024-06-11 20:26:04

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​