Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会


Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会

文章插图
新智元报道
编辑:LRS
【Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会】【新智元导读】王炸Sora发布后,想要分辨AI视频和真实视频变得更难了,各行各业都面临新的挑战与危机 。

技术的发展总是伴随着被滥用的风险,从ChatGPT到最近发布的文本转视频工具Sora,AI生成的内容越是逼真,被滥用的风险也就越高 。
仅仅一年前,大家还在嘲笑AI生成的「威尔史密斯吃意大利面」不自然,手部、嘴部、面条没有一个真实的;但现在的顶级AI模型已经可以生成「录像级」的视频了 , 达到了以假乱真的水平 。
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会

文章插图
无论是普通用户还是专业的研究人员,大多对AI的发展速度感到「震惊」,除了兴奋外 , 大家也开始担心生成的假视频可能会危及2024年的全球政治,或是颠覆内容创作领域 。
最近,Nature上的一篇新闻文章总结了Sora等文本转视频工具对当下的「科学和社会」可能产生的影响,也是继deepfake换脸后,大众又要面临的「分辨假视频」考验,而且这次的考验更加严峻,连可供参考的原始视频都没有 。
英国莱斯特德蒙福特大学的数字文化专家Tracy Harwood认为,错误信息是AI模型要面临的主要挑战,「我们很快就会被淹没在大量看似真实的信息中」 。
Sora带来社会恐惧
2月16日 , OpenAI的Sora模型横空出世,用户只需要通过几个简短的文本提示就能创建逼真的视频,比如「一个女人在东京一条灯光明亮的街道上行走」 。
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
虽然此前也有类似的模型,如Runway发布的Gen-2,或是谷歌开发的Lumiere , 但这些工具并没有引起公众的关注:模型呈现给出的内容非常普通,并且需要非常具体的提示才能让模型生成令人满意的作品 。
相比之下,Sora提高了作品的质量,还拉低了AI作品的制作门槛 。
与此同时,Sora也给即将到来的英国大选和11月的美国总统选举带来了新的问题,英国阅读大学研究人工智能和电影制作的Dominic Lees表示,届时将会有大量的假视频和假音频流传出来,影响公众的判断 。
2023年10月 , 英国工党领袖Keir Starmer的假音频被公开,今年1月 , 美国总统拜登鼓励民主党人不要投票的假音频也被流传出来 。
目前可用的一种解决方案是要求文本到视频的AI使用水印,可以是视频中可见标记的形式,或是添加在视频元数据中的人工签名,但Dominic Lees对这种措施的有效性仍然保持怀疑:水印可以被删掉,元数据签名需要用户特意查看视频的真实性才行,要求世界各地的观众在观看每个视频时都查看元数据是不切实际的 。
Sora也同样影响到了影视创业行业,好莱坞演员、电影制片人和工作室老板Tyler Perry在目睹了 Sora 的能力之后,迅速中止了12 个摄影棚的设计和建造等一系列的影视工作室扩建计划 。
Perry还表示 , 包括演员、场务、电工、交通协调、音效师和剪辑师这些行业人士都将受到影响,Sora 将触及影视行业的每一个角落 。
美国演员汤姆·汉克斯去年也表示 , 人工智能可以让他在死后继续出现在电影中,但如果你是一个雄心勃勃的年轻演员,在争取机会的同时 , 却被告知「对不起,汤姆汉克斯总是会扮演主角」,你会期待这样的影视未来吗?
文本到视频的人工智能将会为社会带来更广泛的问题 。
Harwood认为,我们必须学会重新评估看到的内容,这些文本转视频工具让每个人都有机会成为媒体内容创作者,我们需要处理由此产生的后果 , 也代表着作品消费方式的根本转变 。
‍AI对社会的益处
不过AI技术也对社会的发展存在益处,Harwood认为文本转视频技术可以被用来「以一种更容易理解的格式」呈现较难理解的文本,比如把学术论文可视化等 。
Harwood表示,文本转视频模型可以用来做的最重要的事情之一就是「向外行观众传达专业的研究结果」 , 其能够将相当复杂的概念进行可视化 。


推荐阅读