OpenAI推出了Sora,加入了文本到视频的人工智能内容生成竞赛。Sora可以根据用户的提示生成长达一分钟的视频。
该公司展示了几段用Sora制作的令人印象深刻的视频,包括一名女子走在东京的街道上,以及淘金热时代加利福尼亚的历史镜头。
目前推出的是面向公众的Sora预览版,但也可供特定群体使用,比如安全专家和创作者。该公司允许某些个人接触,以获得关于如何推进该模型以对创意专业人士最有帮助的反馈。总体发布日期尚未公布。
该公司表示:“我们正在与‘红队’合作,‘红队’是错误信息、仇恨内容和偏见等领域的专家,他们将对该模型进行对抗性测试。”“我们还在开发一些工具来帮助检测误导性内容,比如检测分类器,它可以分辨出视频是何时由Sora生成的。”
OpenAI并不是第一家推出这类技术的公司。Meta、谷歌和其他几家公司已经或正在推出各自版本的同类产品。市场上一些最流行的解决方案包括Stability AI, Runway, Pika和Google Lumiere。然而,行业分析人士指出,Sora的视频质量比大多数竞争对手都要好。也许,这就是为什么Sora的演示引起了如此多的热议和炒作。
根据OpenAI的说法,与其他模型相比,Sora的优势在于它具有惊人的真实感,并且能够从简短的提示中生成更长的视频片段。Sora基于对语言的深刻理解,使其能够理解提示并生成角色和情感。
Sora演示展示了它从几个单词生成视频的能力,然而,它没有显示它从单个图像或一系列画面生成视频的能力。
Sora的推出令人兴奋,但也引发了一些担忧。这种技术可以用来制造深度伪造和传播错误信息。我们可以预期Sora对内容有一些限制,包括不合适的真人或使用平台创建包含色情或暴力的内容。
DALL-E团队的首席研究员兼负责人Aditya Ramesh说:“解决错误信息的办法需要我们在一定程度上采取缓解措施,但也需要社会和社交媒体网络的理解来适应。”
对Sora的另一个担忧是,它可能侵犯他人的版权作品。虽然OpenAI声称训练数据来自授权或公开可用的内容,但对于什么是“公开可用”总是存在一些模糊。如果OpenAI不能解决这个问题,他们可能会面临许多针对他们的诉讼。
Sora在精确模拟复杂场景的物理效果方面也存在一些问题。例如,它可能会混淆提示的空间细节。
Sora将赋予普通用户使用文本制作人工智能视频的能力。虽然文本到视频技术在威胁到影视制作行业之前还有很长的路要走,但这些可能也会导致娱乐行业重大颠覆。
目前,OpenAI还没有想得那么远。该公司将专注于通过拒绝不适当的内容和错误信息,并根据C2PA准则(C2PA是一个开放的技术标准,它允许发布者、公司和其他人在媒体中嵌入元数据,以验证其来源和相关信息。C2PA不仅适用于人工智能生成的图像,相机制造商、新闻机构和其他机构也采用了同样的标准来证明媒体内容的来源和历史或出处。)对Sora制作的视频进行标记,确保其后续改善平台的基本安全功能。
发表评论 取消回复