马德里,2 月 16 日(Portaltic/EP)-
开放人工智能 已提出 索拉, 他的新 由生成人工智能 (AI) 驱动的模型 能够创造 长达 60 秒的逼真视频场景 从 文字说明具有详细的结果、复杂的摄像机运动和多个带有情感的角色。
这家美国科技公司打算继续推进人工智能能力,特别是培训 帮助人们解决需要与现实世界交互的问题的模型。 为此,它一直在研究如何教导人工智能理解和模拟运动中的物理世界。
因此,OpenAI 推出了 索拉, 他的新 文本到视频的人工智能模型, 与哪个 允许创建长达一分钟的逼真视频 基于用户提供的文本指示的持续时间。
因此,正如详细的 公司在其网站上 并通过一个分享 刊登 (前 Twitter),Sora 允许创建 具有“高度详细”场景的视频”,以及 “复杂”的摄像机运动 和 多个角色的整合 即使 表现出情绪。
隆重介绍 Sora,我们的文本转视频模型。
Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。 https://t.co/7j2JN27M3W
提示:“美丽的,白雪皑皑的…… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 2024 年 2 月 15 日
要创建这些视频,用户只需 编写一系列说明,详细说明哪些特征 必须包括场景,例如 人物 和 行动 他们将执行的 大约他 气候和 相机动作 必须重新创建。
例如,OpenAI 分享的一个样本视频有以下指示:一名 24 岁女性的眨眼特写,日落时分站在马拉喀什,70mm 电影胶片拍摄,景深,色彩活着,电影。
具体来说,Sam Altman 领导的公司强调,该模型能够执行如此精确的场景,因为它不仅能够理解用户在文本指令中请求的内容,还能够 他还能够理解这些事物如何存在于物质世界中。
沿着这条线,我们必须考虑到它的 广泛的语言知识, 允许索拉 “准确地”解释所有文本提示, 例如,创造表达“充满活力的情感”的现实角色。
索拉甚至有能力 从现有的静态图像生成视频,准确地动画图像内容且不丢失细节。 同样,它也允许 延长现有视频的持续时间 哦 完成一些框架。
就其运作而言, Sora 从其他视频生成视频 根据 OpenAI 的说法,这似乎“静态噪声”。这样,模型 逐渐转变消除噪音 经过许多步骤,直到达到真实图像的可视化。
同样,与 GPT 模型一样,它使用 《变压器架构》 据该公司称, 释放卓越的扩展性能。 具体来说,视频图像表示为 “较小数据单元的集合”被称为 补丁。 因此,每个补丁都是 相等的 仍然 令牌不是 GPT。
目前,使用新的 模型仅适用于 OpenAI 红队成员该团队致力于研究该服务,以对其进行测试并检查它出现的错误以及可能存在的风险。
同样,Sora 也被 由一组视觉艺术家、设计师和电影制作人测试正如该公司所解释的那样,为了了解该模型可能的改进,并使其对创意专业人士尽可能有用。
事实上,正如 OpenAI 所分享的,该模型仍然是 存在一些困难 代表问题 与空间、物理或因果行为有关。 例如,如果指定视频应显示一个人咬饼干,则该饼干稍后可能会出现在没有咬的另一个场景中。
同样,也可能会出现错误,例如模型左右混合,或者无法遵循特定的相机路径。
针对误导或有害内容的安全措施
尽管如此,OpenAI 强调他们正在采取 各种安全措施 在该模型普遍可供更多用户使用之前,他们将在 Sora 中实现这一点。 为此,他们正在与红色团队合作,该团队也拥有虚假信息、煽动仇恨和伤害内容领域的专家。
另一方面,奥特曼的公司是 开发工具来检测误导性内容。 这是一系列功能,可以对 Sora 生成的视频进行分类,以将其与其他类型的视频或真实视频进行识别。 这些功能之一是 C2PA元数据实现验证内容和相关信息来源的标准。
除此之外,目前 由 DALL·E 3 提供支持的其他技术产品已使用的安全方法 正如他所说,这也适用于索拉。
这些安全方法 验证并拒绝违反使用策略的文本输入请求,与极端暴力、性内容、仇恨图像或个人图像相关的问题也是如此。 同样,也 他们有图像分类器来检查每个视频的帧 确保公司政策得到遵守, 在将其展示给用户之前。
1708274796
#OpenAI #推出了 #Sora这是一种新的 #模型能够根据文本指令创建逼真的视频场景
2024-02-16 11:51:04