想要在视频中寻找特定动作?这种基于 AI 的方法可以帮你找到它 | MIT 新闻

互联网上充斥着各种教学视频,这​​些视频可以教会好奇的观众各种知识,从如何烹制完美的煎饼到如何进行救生的海姆立克急救法。 但要精确定位长视频中某个特定动作发生的时间和地点可能非常繁琐。为了简化这一过程,科学家们正在尝试教计算机执行这项任务。理想情况下,用户只需描述他们想要的动作,AI 模型就会跳转到视频中该动作的位置。 然而,教导机器学习模型做到这一点通常需要大量经过精心手工标记的昂贵视频数据。 麻省理工学院和麻省理工学院 – IBM 沃森人工智能实验室的研究人员采用了一种新的、更有效的方法,即仅使用视频及其自动生成的记录来训练模型来执行这项任务,即时空基础。 研究人员用两种不同的方式教模型理解未标记的视频:通过查看小细节来确定物体的位置(空间信息),并查看更大的图景来了解动作发生的时间(时间信息)。 与其他 AI 方法相比,他们的方法可以更准确地识别包含多项活动的较长视频中的动作。有趣的是,他们发现同时训练空间和时间信息可以使模型更好地识别每个动作。 除了简化在线学习和虚拟培训流程之外,该技术还可以用于医疗保健领域,例如,可以快速找到诊断过程视频中的关键时刻。 “我们解决了试图同时编码空间和时间信息的难题,而是将其视为两个专家各自工作,事实证明这是一种更明确的信息编码方式。我们的模型结合了这两个独立的分支,取得了最佳表现,”论文的主要作者 Brian Chen 说道。 关于该技术的论文。 陈是哥伦比亚大学 2023 届毕业生,他在麻省理工学院-IBM 沃森人工智能实验室担任访问学生期间进行了这项研究,与他一起撰写这篇论文的还有詹姆斯·格拉斯,他是麻省理工学院-IBM 沃森人工智能实验室的高级研究员、计算机科学和人工智能实验室 (CSAIL) 口语系统小组负责人;希尔德·库恩,麻省理工学院-IBM 沃森人工智能实验室成员,同时也是法兰克福歌德大学的附属机构;以及麻省理工学院、歌德大学、麻省理工学院-IBM 沃森人工智能实验室和 Quality Match GmbH 的其他人员。这项研究将在计算机视觉和模式识别会议上发表。 全球和本地学习 研究人员通常使用人类注释了特定任务的开始和结束时间的视频来教模型执行时空基础。 生成这些数据不仅成本高昂,而且人类很难确定到底要标记什么。如果动作是“煎饼”,那么这个动作是从厨师开始搅拌面糊时开始的,还是从她把面糊倒进锅里时开始的? “这次的任务可能是烹饪,但下一次,可能是修车。人们需要标注的领域太多了。但如果我们能够在没有标签的情况下学习一切,那么这就是一个更通用的解决方案,”陈说。 研究人员采用的方法是从 YouTube 等网站获取未标记的教学视频和随附的文本记录作为训练数据。这些不需要任何特殊准备。 他们将训练过程分为两部分。首先,他们教机器学习模型查看整个视频,以了解特定时间发生的动作。这种高级信息称为全局表示。 其次,他们教模型将注意力集中在视频中发生动作的特定区域。例如,在一个大厨房里,模型可能只需要关注厨师用来搅拌煎饼面糊的木勺,而不是整个柜台。这种细粒度的信息被称为局部表征。 研究人员将一个附加组件添加到他们的框架中,以减轻叙述和视频之间出现的不一致。也许厨师先谈论煎饼,然后再执行操作。 为了开发出更切合实际的解决方案,研究人员将重点放在了几分钟长的未剪辑视频上。相比之下,大多数人工智能技术都是使用几秒钟的剪辑来训练的,这些剪辑被剪辑成只显示一个动作。 新的基准 但是,当他们评估他们的方法时,研究人员无法找到在这些较长的未剪辑视频上测试模型的有效基准——因此他们创建了一个基准。 为了建立基准数据集,研究人员设计了一种新的注释技术,该技术可以很好地识别多步骤操作。他们让用户标记物体的交点,例如刀刃切开西红柿的点,而不是在重要物体周围画一个框。 陈说:“这定义得更明确,加快了注释过程,减少了人力和成本。” 此外,让多个人对同一视频进行点注释可以更好地捕捉随时间发生的动作,例如倒牛奶的流动。所有注释者都不会在液体流动的同一点上进行标记。 当他们使用这个基准来测试他们的方法时,研究人员发现它比其他人工智能技术更能准确地定位动作。 他们的方法也更注重人与物体的互动。例如,如果动作是“上煎饼”,许多其他方法可能只关注关键物体,比如柜台上的一叠煎饼。相反,他们的方法关注的是厨师将煎饼翻转到盘子上的实际时刻。 接下来,研究人员计划改进他们的方法,以便模型能够自动检测文本和叙述不一致的情况,并将焦点从一种模式切换到另一种模式。他们还希望将他们的框架扩展到音频数据,因为动作和物体发出的声音之间通常存在很强的相关性。 这项研究的部分资金由麻省理工学院-IBM Watson AI 实验室提供。 1716968687 […]

一种更快、更好的方法来防止人工智能聊天机器人做出有毒反应 | 麻省理工学院新闻

用户可以要求 ChatGPT 编写计算机程序或总结文章,而 AI 聊天机器人可能能够生成有用的代码或编写令人信服的概要。 然而,有人也可以请求制造炸弹的指示,而聊天机器人也可能能够提供这些指示。 为了防止此问题和其他安全问题,构建大型语言模型的公司通常使用称为红队的流程来保护它们。 人类测试人员团队编写提示,旨在从正在测试的模型中触发不安全或有毒的文本。 这些提示用于教导聊天机器人避免此类响应。 但只有当工程师知道要使用哪种有毒提示时,这才有效。 如果人类测试人员错过了一些提示(考虑到可能性的数量,这很可能是),被视为安全的聊天机器人可能仍然能够生成不安全的答案。 麻省理工学院 Improbable AI 实验室和 MIT-IBM Watson AI 实验室的研究人员使用机器学习来改进红队。 他们开发了一种技术来训练红队大型语言模型,以自动生成不同的提示,从而触发正在测试的聊天机器人发出更广泛的不良响应。 他们通过教导红队模型在编写提示时保持好奇心,并专注于引起目标模型有毒反应的新颖提示来做到这一点。 该技术通过生成更明显的提示来引发越来越有毒的反应,从而优于人类测试人员和其他机器学习方法。 与其他自动化方法相比,他们的方法不仅显着提高了正在测试的输入的覆盖范围,而且还可以从由人类专家内置保护措施的聊天机器人中提取有毒反应。 “目前,每个大型语言模型都必须经过很长一段时间的红队检查才能确保其安全。 如果我们想在快速变化的环境中更新这些模型,这将是不可持续的。 我们的方法提供了一种更快、更有效的方法来保证质量。”Improbable AI 实验室的电气工程和计算机科学 (EECS) 研究生、论文的主要作者 Zhuang-Wei Hong 说道。 关于这种红队方法的论文。 Hong 的合著者包括 EECS 研究生 Idan Shenfield、Tsun-Hsuan Wang 和 Yung-Sung Chuang; Aldo Pareja 和 Akash Srivastava,MIT-IBM Watson AI 实验室的研究科学家; James Glass,计算机科学与人工智能实验室(CSAIL)高级研究科学家兼口语系统组组长; 资深作者 […]