OpenAI 的新 GPT-4o 让人们可以在同一模型中使用语音或视频进行交互

GPT-4 提供了类似的功能,为用户提供了多种与 OpenAI 的 AI 产品交互的方式。 但它将它们隔离在不同的模型中,导致响应时间更长,计算成本可能更高。 GPT-4o 现在已将这些功能合并到一个模型中,Murati 称之为“全模型”。 她说,这意味着任务之间的响应速度更快,过渡更顺畅。

该公司的演示表明,其结果是一款类似于 Siri 或 Alexa 的对话助理,但能够处理更复杂的提示。

“我们正在研究我们自己与机器之间交互的未来,”穆拉蒂在谈到演示时说道。 “我们认为 GPT-4o 确实正在将这种范式转变为协作的未来,使这种交互变得更加自然。”

OpenAI 的研究人员 Barret Zoph 和 Mark Chen 介绍了新模型的一些应用。 最令人印象深刻的是它的现场对话设施。 你可以在模型响应期间打断它,它会停下来、倾听并调整路线。

OpenAI 还展示了改变模型基调的能力。 陈要求模特读一个“关于机器人和爱情”的睡前故事,并迅速插话要求模特发出更戏剧化的声音。 该模型逐渐变得更加戏剧化,直到穆拉蒂要求它快速转向令人信服的机器人声音(它擅长这一点)。 虽然在模型推理接下来要说什么的过程中,对话过程中出现了一些短暂的停顿,但它作为一场节奏非常自然的人工智能对话脱颖而出。

2024-05-13 19:27:57
1715674913

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​