Dall-E mini:创作者解释了模糊的面孔、病毒式传播以及该项目的未来

跨境快讯 2024-02-01 12:01:15 woniu
2
导读:自从在网上疯传以来,鲍里斯·戴玛 (Boris Dayma) 的 Dall-E 迷你项目取得了巨大的增长,但它下一步将走向何方呢?


人工智能图像生成器现在正大放异彩。感谢 OpenAI 及其名为 Dall-E 2 的创造,互联网上的人们已经能够仅根据文字提示制作自己的详细图像。

但在 OpenAI 创建后不久,我们就看到 Google 发布了一个直接竞争对手,使用 OpenAI 的开源代码来帮助创建 Imagen——一个同样令人印象深刻的AI图像生成器,能够再次仅通过简单的短语来制作图像。

然而,虽然这两项发明在人工智能世界中都是革命性的,但它们只适用于少数人,并且随着它们慢慢地向新用户提供访问权限而提供等待名单。

不久之后,互联网上涌现出大量人们制作自己的 Dall-E 图像,尽管质量水平要低得多。这并不是因为 OpenAI 突然开放了访问权限,而是因为有人在很大程度上基于原始版本制作了自己的软件版本,称为Dall-E mini。

我们采访了 Dall-E mini 的创始人,了解了它的诞生过程、病毒式传播潜力以及该项目的未来。

Dall-E mini 是什么?它是如何诞生的?
Dall-E mini 是另一款席卷互联网的人工智能图像生成器。然而,它的不同之处在于它完全免费供所有人使用。尽管名称几乎相同,但它与 OpenAI 无关,只是利用了 OpenAI 在其模型上提供的大量公开信息。

相反,这个项目是由一位名叫 Boris Dayma 的软件工程师创建的。“当我听说它 [Dall-E] 时,我觉得这太酷了,我想构建类似的东西。所以我读了他们关于模型的论文,但我永远无法理解它,它太复杂了,”Dayma 说。

直到 2021 年 7 月,鲍里斯报名参加由 Google 和人工智能社区 Hugging Face 举办的竞赛时,才有机会尝试重新创建这个项目。他与一个团队配对并为他的项目提供支持,他们都决定尝试创建一个像 Dall-E 这样的人工智能图像生成器。

“到月底,我们有了一些很酷的东西。它当时没有达到现在的水平,但它可以产生简单的提示,例如夜晚或白天的海滩。我们赢得了比赛,我继续致力于该产品,从那时起不断改进。”

该模型最初并没有受到一小部分受众的欢迎,但大约两个月前,互联网开始接受它,并因其病毒图像能力而接受它。

与 Dall-E mini 的一个主要区别是,由于团队较小且免费使用,它根本没有经过过滤。这意味着,与具有安全协议的 Google 的 Imagen 和 OpenAI 的Dall-E 2相比,任何提示都会被接受。这意味着人们可以使用 Dall-E mini 来处理各种事情,从卡通表演泰德演讲和名人打魁地奇,到使用种族主义、极端暴力或描述现实世界的创伤情况。

病毒式传播
随着这项免费服务在网上疯传,使用该平台的人突然多于鲍里斯一人。他的主要收获是新用户的创造力。

“我会写一些像月光下的湖景或月球上的埃菲尔铁塔之类的东西,这些是我最复杂的提示。但当我看到人们用它做什么时,我感到很惊讶。我没有那种水平的创造力,他们学习如何调整模型来创建我永远无法想出的真正具体的提示,”鲍里斯说。

当他需要放松时,他甚至会浏览推特,看看人们可以创造什么。他特别喜欢使用“轨迹摄像机”一词,创建出看起来像是来自夜间低分辨率相机的颗粒状图像。
模糊的面孔和创意输入
尽管该模型很受欢迎,但它并非没有局限性。与 OpenAI 的原始模型或谷歌最新的 Imagen 相比,Dall-E mini 在图像质量方面显然难以匹敌。

虽然任何术语都可能产生匹配的结果,无论多么小众,你可能会发现自己眯着眼睛看比较。名人和卡通人物通常会呈现出与原版有些相似的斑点,更奇怪的问题是,该模型实际上无法制作面孔。

“图像被编码成非常短的数字序列,以便模型可以更快地学习。正因为如此,该模型犯了很多错误。然而,当你画月亮、风景或树时,你并没有真正注意到那里的问题。

“当它出现在脸上时,我们会更加注意。如果眼睛不正常或者鼻子形状不正常,那就很奇怪了。动物和卡通人物也是如此,只是我们比畸形物体更关注它。事实上,该模型在所有方面都同样好或坏。”

这并不意味着该模型不能做鬼脸,它只是需要用户做大量的工作。有些人找到了通过编写长而详细的提示来强制模型创建脸部的方法,列出脸部每个部分的大小和位置。
应对 Dall-E mini 的庞大数字和未来
虽然 Dall-E mini 的自由特性使其脱颖而出,但它也并非没有局限性。与 OpenAI 的队列系统相比,Dall-E mini 可以立即供每个人使用。

“现在使用它的人数非常多。当它变得病毒式传播时,我做了一些小的改变以使其更高效,然后我可以处理更多的流量,但随后流量会再次增加,我永远无法跟上。

“我希望通过更多服务器来扩展它并能够适应。渐渐地,我们能够支持更多的流量,希望未来流量不会成为问题。”

然而,随着规模的扩大和增长,鲍里斯现在提出了 OpenAI 和谷歌都会质疑的同样问题——如果没有任何财政援助或货币化,这种情况是否会继续下去。

“我认为货币化很重要。我希望能够使其具有可扩展性,以便现在每个人都可以使用它,对我来说,让每个人都免费使用它非常重要。我的目标是成为一个自我可持续的项目,每个人都可以付费使用。”

版权声明: woniu 发表于 2024-02-01 12:01:15。
转载请注明: Dall-E mini:创作者解释了模糊的面孔、病毒式传播以及该项目的未来 | 跨境湾

相关文章