系统从视频记录中提取口语,并将其转换为可搜索的文本

图片来源:Unsplash/CC0 公共领域

韩国的一个团队开发出了一种搜索视频内容的新方法。 系统,描述于 国际计算机视觉与机器人杂志,从视频记录中提取口语,将其转换为文本,然后使该文本可搜索。重要的是,该系统不依赖嵌入的关键字或精选标签或与视频内容相关联的主题标签。

这种方法显然依赖于与用户可能希望搜索的视频场景相关的项目的对话或口头评论。当然,如果视频已经内置了字幕,那么这是多余的。尽管如此,对于希望搜索数据库、流媒体服务和互联网其他地方的数百万小时视频的用户来说,它将是一种福音,并可用于帮助对视频进行分类。

首尔汉城大学计算机工程学院的 Kitae Hwang、In Hwan Jung 和 Jae Moon Lee 开发了一款适用于相应智能手机的 Android 应用。但值得注意的是,至少还有一款同名应用,因此如果这款应用在 Google Play 安卓应用商店中上架,可能需要改名。

这款新应用的工作原理是,使用 FFmpeg 代码从视频中提取音频,并以 10 秒为增量将其转换为文本。该团队解释说,这为视频创建了一个可搜索的时间线。然后,先进的语音识别技术会生成这些音频片段的转录,这些转录会在视频时间线上编入索引。

对于 20 分钟的视频,该过程只需两到三分钟即可完成,并在视频播放时在后台运行。该团队指出,用户可以搜索特定术语并查找视频中的所有提及内容。

该应用将应用于教育、新闻分析和其他需要快速访问特定信息的信息密集型视频。例如,查看讲座录音的学生或搜索采访中特定陈述的记者可以使用此应用。在许多其他场景中,以这种方式搜索视频会很有用。

更多信息:
Kitae Hwang 等,可搜索视频播放器的实现, 国际计算机视觉与机器人杂志 (2024)。 DOI:10.1504/IJCVR.2024.138324

引用:系统从视频记录中提取口语,将其转换为可搜索的文本(2024 年 5 月 23 日)于 2024 年 5 月 25 日检索自

本文件受版权保护。除出于私人学习或研究目的的合理使用外,未经书面许可不得复制任何部分。内容仅供参考。

1716643410
#系统从视频记录中提取口语并将其转换为可搜索的文本
2024-05-23 15:36:30

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​