15 秒声音就能合成不同语言人声,OpenAI 公开语音引擎预览版| TechNews 科技新报

15 秒声音就能合成不同语言人声,OpenAI 公开语音引擎预览版

OpenAI 语音引擎(Voice Engine)及其采用AI 模型悄悄出现在用户眼前已有一段时间,现在该公司正式对外公开。

OpenAI 语音引擎预览版29 日首度亮相,这项功能是现有文字转语音API 的延伸,背后采用模型也支援ChatGPT 语音对话和「朗读」。语音引擎经过大约2 年开发,将允许用户上传15 秒语音样本,将这些语音资料合成更多版本,目前提供少数公司进行测试。

「我们会撷取一段简短的音讯和文字,产生与原说话者相符的逼真语音。」OpenAI 产品开发成员Jeff Harris 告诉国外媒体TechCrunch,模型同时分析从中撷取的语音资料和要朗读的文字资料,可产生情感丰富且自然真实声音,与原始说话者非常相似。 「处理完成后,所使用的音讯会被删除。」

在 OpenAI 部落格文章的范例中,一名英语用户的声音被翻译成西班牙语、华话、德语、法语以及日语,同时保留原说话者的口音,Jeff Harris 称OpenAI 方法可提供更高品质语音。

事实上,这不是全新技术,许多公司一直有可合成语音的产品,从新创ElevenLabs 再到大型公司亚马逊、Google、微软等都有。不过谈到语音引擎背后的训练资料从何而来,Jeff Harris 仅表示根据授权资料和公开资料组合训练而成。

包括OpenAI 语音引擎在内AI 工具能够合成不同语音,未来可能会对配音员、影音内容制作等领域带来许多影响,消费大众更担心这样的工具被不法分子用于诈骗、散播不实资讯。

语音引擎功能虽强大,但目前无法调整语音的口音、音调或说话速度。 OpenAI 也未公布推出时程,可让该公司有更多时间测试,防止功能遭到不法滥用。

(首图来源:像素宝贝

延伸阅读:

1711795221
#秒声音就能合成不同语言人声OpenAI #公开语音引擎预览版 #TechNews #科技新报
2024-03-30 06:35:16

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​