Meta表示其AI图像生成器是最先进的

AI产品新闻10个月前发布 yundic
27 0 0

Meta推出了名为CM3 leon的AI图像生成器,并声称它提供了最先进的性能。

CM3leon,发音为“变色龙”,代表了文本到图像生成竞赛中性能的转变。虽然像DALL—E和Stable Diffusion这样的工具生成了令人印象深刻的图像,但Meta在其公告中声称CM3 leon在许多领域都比这些工具更有优势。

大多数模型,如稳定扩散模型和Dall-E模型,都是扩散模型。

它也是一个更高效的模型,与其他模型相比,训练所需的计算机处理减少了5倍,训练数据集也小得多。

CM3leon是首批可以为图像生成长字幕和短字幕的模型之一。您还可以向它询问有关图像的问题。Meta举了一个例子,展示了CM3leon对一张狗拿着棍子的照片的提示是如何反应的。

Meta表示其AI图像生成器是最先进的

由CM3leon生成的狗和棍子图像。来源:Meta

提示问题: 狗带着什么?

模型生成:

提示: 详细描述给定的图像。

模型生成: 在这张照片中,有一只狗嘴里叼着一根棍子。地面上有草。在照片的背景下,有树木。

CM3leon能够很好地响应特定细节或提示中的细微差别。而Meta在他们的公告中使用的样本图像似乎表明,它比其他使用人工手和在生成的图像中添加文本等棘手问题的模型表现得更好。

Meta表示其AI图像生成器是最先进的

图像由Meta的CM 3 leon生成。来源:Meta

这些图像的相应提示是:

(1)撒哈拉沙漠中戴着草帽和霓虹灯太阳镜的小仙人掌。(2)一个人的手的特写照片,手模型。高质量(3)动画中的浣熊主要人物准备用武士刀进行史诗般的战斗。战斗姿态。幻想,插图。(4)一个停止标志在幻想风格与文字“1991”。

Meta强调的其他有趣功能是基于文本和结构引导的图像编辑。这些允许您使用文本请求编辑,如“将天空更改为蓝色”,或将项目放置在图像中特定的x—y坐标。

CM3leon是在来自Shutterstock的数百万张许可图像上进行训练的,而不是其他模型一直受到批评的那种”粉碎和抓取”广泛的方法。与其他模型一样,Meta说CM3 leon将反映训练数据中的偏差。所以如果你让它生成一个建筑工人的图像,它可能会生成一个男人的图像。

但Meta至少在这一点上是坦率的,并对偏见问题发表了评论,他表示,尽管该行业仍处于理解和应对这些挑战的早期阶段,但我们相信,透明度将是加快进展的关键。

从他们发布的示例和性能声明来看,CM3leon似乎比其他AI图像生成器更高效,在文本提示的空间和上下文理解方面更好。

Meta还没有说什么时候会发布CM3leon,所以我们不得不相信他们的话,这些功能目前运行得如何。

© 版权声明

相关文章

暂无评论

暂无评论...