4 月 10 日与我们一起前往亚特兰大,探索安全劳动力的前景。 我们将探讨人工智能对安全团队的愿景、好处和用例。 请求邀请 这里。
人工智能即服务提供商 装配人工智能 有一个新的语音识别模型 称为Universal-1。 该公司表示,经过超过 1250 万小时的多语言音频数据训练,它在英语、西班牙语、法语和德语的语音到文本准确性方面表现出色。 它声称,与 OpenAI 的 Whisper Large-v3 模型相比,Universal-1 可以将语音数据的幻觉减少 30%,将环境噪声的幻觉减少 90%。
在一篇博文中该公司将 Universal-1 描述为“我们使命的另一个里程碑,即为多种语言提供准确、忠实和强大的语音转文本功能,帮助我们全球的客户和开发人员构建各种语音人工智能应用程序。” 除了更好地理解四种主要语言之外,该模型还可以进行代码切换,在单个音频文件中转录多种语言。
Universal-1 还支持改进的时间戳估计,这在处理音频和视频编辑以及对话分析时非常重要。 Assembly AI 声称新模型比其前身 Conformer-2 好 13%。 因此,说话人分类效果更好,串联最小排列单词错误率 (cpWER) 提高了 14%,说话人计数估计准确度提高了 71%。
最后,并行推理变得更加高效,减少了长音频文件的周转处理时间。 据称,Universal-1 完成这项任务的速度是 Whisper Large-v3 的五倍。 Assembly AI 在具有 16GB VRAM 的 Nvidia Tesla T4 机器上将 Universal-1 的处理速度与 Whisper Large-3 进行了比较。 批量大小为 64 时,前者需要 21 秒才能转录 1 小时的音频。 然而,使用更小的批量大小 24,后者需要 107 秒才能完成相同的任务。
改进语音到文本人工智能模型的好处是,记笔记的人可以生成更准确、无幻觉的笔记、识别操作项并整理元数据,例如专有名词、谁在说话和时间信息。 此外,它将帮助创建者工具应用程序整合人工智能驱动的视频编辑工作流程、远程医疗平台自动化临床记录输入和索赔提交流程(其中准确性很重要)等等。
Universal-1 模型是 可通过 Assembly AI 的 API 获取。
2024-04-03 22:29:51
1712185968