OpenAI 推出了 Sora,这是一种新的 AI 模型,能够根据文本指令创建逼真的视频场景

马德里,2 月 16 日(Portaltic/EP)-

开放人工智能 已提出 索拉, 他的新 由生成人工智能 (AI) 驱动的模型 能够创造 长达 60 秒的逼真视频场景 文字说明具有详细的结果、复杂的摄像机运动和多个带有情感的角色。

这家美国科技公司打算继续推进人工智能能力,特别是培训 帮助人们解决需要与现实世界交互的问题的模型。 为此,它一直在研究如何教导人工智能理解和模拟运动中的物理世界。

因此,OpenAI 推出了 索拉, 他的新 文本到视频的人工智能模型, 与哪个 允许创建长达一分钟的逼真视频 基于用户提供的文本指示的持续时间。

因此,正如详细的 公司在其网站上 并通过一个分享 刊登 (前 Twitter),Sora 允许创建 具有“高度详细”场景的视频”,以及 “复杂”的摄像机运动 多个角色的整合 即使 表现出情绪。

要创建这些视频,用户只需 编写一系列说明,详细说明哪些特征 必须包括场景,例如 人物行动 他们将执行的 大约 气候相机动作 必须重新创建。

例如,OpenAI 分享的一个样本视频有以下指示:一名 24 岁女性的眨眼特写,日落时分站在马拉喀什,70mm 电影胶片拍摄,景深,色彩活着,电影。

具体来说,Sam Altman 领导的公司强调,该模型能够执行如此精确的场景,因为它不仅能够理解用户在文本指令中请求的内容,还能够 他还能够理解这些事物如何存在于物质世界中。

沿着这条线,我们必须考虑到它的 广泛的语言知识, 允许索拉 “准确地”解释所有文本提示, 例如,创造表达“充满活力的情感”的现实角色。

索拉甚至有能力 从现有的静态图像生成视频,准确地动画图像内容且不丢失细节。 同样,它也允许 延长现有视频的持续时间完成一些框架。

就其运作而言, Sora 从其他视频生成视频 根据 OpenAI 的说法,这似乎“静态噪声”。这样,模型 逐渐转变消除噪音 经过许多步骤,直到达到真实图像的可视化。

同样,与 GPT 模型一样,它使用 《变压器架构》 据该公司称, 释放卓越的扩展性能。 具体来说,视频图像表示为 “较小数据单元的集合”被称为 补丁。 因此,每个补丁都是 相等的 仍然 令牌不是 GPT。

目前,使用新的 模型仅适用于 OpenAI 红队成员该团队致力于研究该服务,以对其进行测试并检查它出现的错误以及可能存在的风险。

同样,Sora 也被 由一组视觉艺术家、设计师和电影制作人测试正如该公司所解释的那样,为了了解该模型可能的改进,并使其对创意专业人士尽可能有用。

事实上,正如 OpenAI 所分享的,该模型仍然是 存在一些困难 代表问题 与空间、物理或因果行为有关。 例如,如果指定视频应显示一个人咬饼干,则该饼干稍后可能会出现在没有咬的另一个场景中。

同样,也可能会出现错误,例如模型左右混合,或者无法遵循特定的相机路径。

针对误导或有害内容的安全措施

尽管如此,OpenAI 强调他们正在采取 各种安全措施 在该模型普遍可供更多用户使用之前,他们将在 Sora 中实现这一点。 为此,他们正在与红色团队合作,该团队也拥有虚假信息、煽动仇恨和伤害内容领域的专家。

另一方面,奥特曼的公司是 开发工具来检测误导性内容。 这是一系列功能,可以对 Sora 生成的视频进行分类,以将其与其他类型的视频或真实视频进行识别。 这些功能之一是 C2PA元数据实现验证内容和相关信息来源的标准。

除此之外,目前 由 DALL·E 3 提供支持的其他技术产品已使用的安全方法 正如他所说,这也适用于索拉。

这些安全方法 验证并拒绝违反使用策略的文本输入请求,与极端暴力、性内容、仇恨图像或个人图像相关的问题也是如此。 同样,也 他们有图像分类器来检查每个视频的帧 确保公司政策得到遵守, 在将其展示给用户之前。


1708274796
#OpenAI #推出了 #Sora这是一种新的 #模型能够根据文本指令创建逼真的视频场景
2024-02-16 11:51:04

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​