15 秒声音就能合成不同语言人声，OpenAI 公开语音引擎预览版| TechNews 科技新报

OpenAI 语音引擎（Voice Engine）及其采用AI 模型悄悄出现在用户眼前已有一段时间，现在该公司正式对外公开。

OpenAI 语音引擎预览版29 日首度亮相，这项功能是现有文字转语音API 的延伸，背后采用模型也支援ChatGPT 语音对话和「朗读」。语音引擎经过大约2 年开发，将允许用户上传15 秒语音样本，将这些语音资料合成更多版本，目前提供少数公司进行测试。

「我们会撷取一段简短的音讯和文字，产生与原说话者相符的逼真语音。」OpenAI 产品开发成员Jeff Harris 告诉国外媒体TechCrunch，模型同时分析从中撷取的语音资料和要朗读的文字资料，可产生情感丰富且自然真实声音，与原始说话者非常相似。「处理完成后，所使用的音讯会被删除。」

在 OpenAI 部落格文章的范例中，一名英语用户的声音被翻译成西班牙语、华话、德语、法语以及日语，同时保留原说话者的口音，Jeff Harris 称OpenAI 方法可提供更高品质语音。

事实上，这不是全新技术，许多公司一直有可合成语音的产品，从新创ElevenLabs 再到大型公司亚马逊、Google、微软等都有。不过谈到语音引擎背后的训练资料从何而来，Jeff Harris 仅表示根据授权资料和公开资料组合训练而成。

包括OpenAI 语音引擎在内AI 工具能够合成不同语音，未来可能会对配音员、影音内容制作等领域带来许多影响，消费大众更担心这样的工具被不法分子用于诈骗、散播不实资讯。

语音引擎功能虽强大，但目前无法调整语音的口音、音调或说话速度。 OpenAI 也未公布推出时程，可让该公司有更多时间测试，防止功能遭到不法滥用。

（首图来源：像素宝贝）

15 秒声音就能合成不同语言人声，OpenAI 公开语音引擎预览版| TechNews 科技新报

延伸阅读：

Related

相关新闻

经合组织将印度 2025 财年 GDP 增长预测上调 40 个基点至 6.6% | 经济与政策新闻

用情绪感染社群媒体充满正能量的棒球网红Ben Verlander – MLB – 棒球

可口可乐装瓶商寻求启动 IPO 计划、零售新闻、ET Retail

“只允许 13 岁以上的人使用手机上网是一个非常明智的决定”

天气：大雨和雷暴后造成的损害

HLM新规则：政府面对住房危机改变策略

足球：蒙彼利埃向两名支持者索要 515,000 欧元用于扔鞭炮

根据内政部的数据，法国有 121,000 人参加游行，根据 CGT 的数据，法国有超过 200,000 人参加游行

戈麦斯·埃斯克里巴诺 (Gómez Escribano)，卡尼耶哈斯的黑人编年史家

第九次“超载”新奥尔巴尼之旅推迟一周

宪法法院因电力紧急状态做出部分有利的紧急状态裁决

官员称，如果国会不采取行动，移民援助就无法持续：-

Leave a Reply Cancel reply

近期新闻

经合组织将印度 2025 财年 GDP 增长预测上调 40 个基点至 6.6% | 经济与政策新闻

用情绪感染社群媒体充满正能量的棒球网红Ben Verlander – MLB – 棒球

可口可乐装瓶商寻求启动 IPO 计划、零售新闻、ET Retail

“只允许 13 岁以上的人使用手机上网是一个非常明智的决定”

天气：大雨和雷暴后造成的损害

HLM新规则：政府面对住房危机改变策略

编辑精选

信息

More Interesting News

经合组织将印度 2025 财年 GDP 增长预测上调 40 个基点至 6.6% | 经济与政策新闻

用情绪感染社群媒体充满正能量的棒球网红Ben Verlander – MLB – 棒球

15 秒声音就能合成不同语言人声，OpenAI 公开语音引擎预览版| TechNews 科技新报

延伸阅读：

Share this:

Related

相关新闻

Leave a Reply Cancel reply

近期新闻​

编辑精选​

Tags

信息

More Interesting News

近期新闻

编辑精选