51博客登陆(51博客相册)-第1张

随著控制技术不断进步,AI展示出了强悍的增长潜力。从第二个击退人类文明中国围棋螺科鹑的AlphaGo到可以独立自主程式设计的AlphaCode,AI的张力经常绝妙。但是与AI相关的争论也始终如此这般,比如说人脸牵涉的个人隐私难题、众多无中生有的手动聚合等。

现如今,OpenAI新面世的DALL·E 2控制系统又一场引发了高度关注,这个控制系统能依照文档叙述手动聚合各式各样相片,那些相片不但能仿造,所以常常保有形形色色的感染力。但在此种潜能的另一面,相关仇恨和作假的窘境再度浮出水面。即使控制技术虽无无常,但本性可能挡不住挑战。

你见过玩偶在天河城玩溜冰吗?你见过外太空人出外外太空骑着马吗?

51博客登陆(51博客相册)-第2张
51博客登陆(51博客相册)-第3张

DALL-E 2 让你看见了以内一幅现实生活中显然不存有的影像。

DALL-E 2是何故?它是声名远播的 OpenAI 合作开发出的文档聚合影像辅助工具DALL-E 的新一代版,也是前段时间有点儿小破圈、引发了很大探讨高度关注度的AI控制系统。

DALL-E 2:解像度升天,追加伊瓦诺音乐创作机能

2021年1月,OpenAI创造了DALL-E。这一控制系统是基于GPT-2/GPT-3语言模型与CLIP相片识别控制系统而聚合的。据了解,DALL-E这一名称来源于超现实生活主义画家萨尔瓦多·达利(Salvador Dali)和皮克斯出品动画《机器人总动员》的主角瓦力(WALL-E)的名字组合。

相较第一代DALL-E,DALL-E 2在精确度和写实度上分别提升了71.7%和88.8%,在解像度上更是得到了质的飞跃。举例来说,初代DALL·E相片像素只有256×256,而DALL·E 2像素可达1024×1024,分辨率更胜一筹,延迟也变得更低。

就像同样的文档叙述a painting of a fox sitting in a field at sunrise in the style of Claude Monet(一幅狐狸在日出时坐在田野里的画,莫奈风格),在两代控制系统中聚合的相片表现就有明显差异。直观来看,左边(DALL-E 1)像粗糙的卡通画,所以糊作一团,右边(DALL-E 2)的清晰度明显提升,且真正有了油画的质感。

51博客登陆(51博客相册)-第4张

图源:OpenAI官网

所以,DALL-E 2还追加了两个机能——影像修补( inpainting)和变体(variations),可以用于编辑和润色相片。

影像修补就是局部变更现有相片中的一部分。具体来说,就是通过DALL·E 2用AI聚合的影像填充或替换相片中的单个对象,同时和原图无缝衔接,比如说将沙发上的抱枕换成一只小狗,或在水池中放一只玩具鸭子。

51博客登陆(51博客相册)-第5张

图源:OpenAI官网

变体是指以一张影像为蓝本,重新创造出不同角度不同风格的新影像。用户可以在上传一张原始相片后对其进行各式各样风格变化,还可以将两张相片上的对象进行叠加聚合新图。

51博客登陆(51博客相册)-第6张

图源:OpenAI官网

突破与挑战:仿造的相片是如何聚合的

此次 Open AI 面世的新版 DALL-E 2 是基于名为CLIP的计算机视觉控制系统而建立的。CLIP 接受了数亿张影像及其相关标题的训练,了解给定文档片段与影像的关联程度。

值得高度关注的是,OpenAI通过对 CLIP 进行迭代,创建了unCLIP——一个基于叙述并朝着影像聚合目标运行的新控制系统,同时将其用于 DALL-E 2。unCLIP可以部分完善 CLIP 的不足之处,即人们可以通过给物体贴上一个表示其他东西的单词,来诱使控制系统错误地识别所看见的内容。

举个例子,如果教给控制系统一个名称错误的对象,比如说一张标签名称是汽车的飞机相片,那么之后当用户想要聚合汽车的影像时,也许就会聚合一张飞机的影像。这个过程就像和一个学了错词的人交谈一样。在这一点上,unCLIP的表现要比 CLIP 出色得多。

同时,新控制系统支持扩散模型(Diffusion Models),此种程序会先从随机点形成的图案开始,一旦取得更具体的叙述重点后,会渐近地转变成相片。其优势在于可以聚合高质量的合成影像,尤其在与引导控制技术结合使用时,能够在保真度上权衡多样性。

但是,尽管文档聚合相片的相关研究始终在不断进步,但始终有不尽如人意的地方,就像DALL-E 2同样会被其训练中的盲区所限制。

比如说,你在DALL-E 2中输入通过学习影像与正确标签而理解的猴子,它会聚合不少有意思的猴子影像。但如果你输入吼猴(howler monkey),同时它又没学会吼猴是什么,不知道这其实是一个物种名称。那么DALL-E 2会给你它所认为的最优结果——一只在大吼大叫的猴子。就目前来看,DALL-E 2的潜力和局限同样突出、同样清晰。

控制技术需要深究,本性不可窥探

有意思的是,始终以来,Open AI 都没有完整公开过 DALL-E 的模型。目前,用户可在其官网注册账号后预览该辅助工具。相关研究人员只表示,希望继续进行分阶段的过程,以便能安全地发布这项控制技术。

尽管 DALL-E 2 的造物令人眼花缭乱,但很多人已觉察到这项控制技术另一面的窘境。姑且不论算法自诞生以来就饱受诟病的仇恨难题,光是其几可乱真的相片质量就可以让人心生忌惮。就像亚利桑那州立大学计算机科学教授苏巴拉所说:你可以用它来做好事,但你肯定可以用它来做更加疯狂的事情,包括深度伪造的照片和视频。

如同当初GPT-3被质疑用来生产无中生有一样,DALL-E 2这样的相片聚合辅助工具也有可能遭到滥用。如果人人都可以不费力地输出大量毫无违和感的假照片时,人人自危还会远吗?毫无疑问,人们将不得不对他们在网上看见的几乎所有东西持怀疑态度。

相关DALL-E 2的外媒报道下,有读者一针见血地指出:如果这件事公开,最明智的做法是完全脱离网络和电视,避免与那些想告诉你在网络上看见什么东西的人有任何接触。如果未来全息影像成为主流,那么我们将为子孙后代创造一个反乌托邦式的地狱。

对此,OpenAI也有了预判并表示,其将在持续构建 DALL-E 的同时利用保护性的策略来应对影像仇恨及错误信息等潜在难题。那些措施包括:

DALL-E 2聚合的相片会有一个水印,标志其来自人工智能。

DALL-E 2 是基于筛选掉不良材料后的数据所训练出来的。理想情况下已限制了其产生有害内容的潜能。

反滥用机能,使DALL-E 2不能通过名字随意聚合可被识别的人物面孔。

用户不得在该辅助工具上传或聚合仇恨符号、裸体、淫秽手势及与正在发生的重大地缘政治事件相关的阴谋或评论。

用户需说明人工智能为聚合影像所做的变化,且不能借由软件及网站将聚合的影像给到其他人。

虽然不知成效如何,但至少DALL-E 2现在还被锁于深匣之中。当然,需要承认的是,DALL-E 2 强悍的潜能允许人们通过以前完全无法实现的方式用影像表达自己,在此之前,没人知道长的像牛油果的椅子弹吉他的北极熊达利风格的空中花园留着莫西干头的蒙娜丽莎是什么样,现如今DALL-E2却让这一切都以逼近现实生活的方法呈现在大众眼前。同时,DALL-E 2也帮助人们明白,一个复杂的人工智能控制系统如何观察和了解我们的世界,对于研发一个有用且安全的AI,这一点至关重要。

参考链接:

​https://openai.com/dall-e-2/​​

​​https://www.assemblyai.com/blog/how-dall-e-2-actually-works/​​

​​https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing?scrolla=5eb6d68b7fedc32c19ef33b4​​

​​https://www.seattletimes.com/business/technology/meet-dall-e-the-ai-that-draws-anything-at-your-command/?utm_campaign=Artificial+Intelligence+Weekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_270​​

​​https://www.bilibili.com/video/BV1L3411n7nd?spm_id_from=333.337.search-card.all.click​

来源:51CTO控制技术栈

作者:千山