一项新的研究表明,使用人工智能生成的图像训练人工智能图像生成器最终导致输出质量的显著下降。
Baraniuk和他的团队展示了这个有问题的人工智能训练循环如何影响生成人工智能,包括StyleGAN和扩散模型。这些都是用于人工智能图像生成器的模型,如Stable Diffusion,DALL—E和MidJourney。
在他们的实验中,该团队对人工智能进行了人工智能生成或真实图像的训练。来自Flickr的7万张真实人脸。
当每个人工智能都在自己的人工智能生成的图像上训练时,StyleGAN图像生成器的输出开始显示扭曲和波浪形的视觉模式,而扩散图像生成器的输出变得更加模糊。
在这两种情况下,在人工智能生成的图像上训练人工智能都会导致质量损失。
其中一个学习 来自德克萨斯州莱斯大学的Richard Baraniuk警告说:“无论有意还是无意,使用合成数据都会出现滑坡。”
人工智能模型在合成图像上训练的越多,它们的输出就越模糊。资料来源:莱斯大学。
虽然通过选择更高质量的人工智能生成的图像进行训练,降低了图像质量的下降,但这导致了图像多样性的损失。
研究人员还尝试将一组固定的真实图像整合到训练集中,其中主要包括人工智能生成的图像,这种方法有时用于补充小的训练集。
然而,这只是延缓了图像质量的下降–似乎不可避免的是,进入训练数据集的人工智能生成的数据越多,输出就越糟糕。这只是个时间问题。
当每个人工智能在人工智能生成的图像和一组不断变化的真实图像上进行训练时,就可以获得合理的结果。这有助于保持图像的质量和多样性。
平衡数量和质量是一个挑战—与真实图像相比,合成图像可能是无限的,但使用它们是有代价的。
人工智能正在耗尽数据
人工智能需要大量的数据,但高质量的数据是有限的资源。
这项研究的发现呼应了 文本生成的类似研究当模型在人工智能生成的文本上训练时,人工智能输出往往会受到影响。
研究人员强调,收集真实数据能力有限的小型组织在从数据集中过滤人工智能生成的图像方面面临着最大的挑战。
此外,互联网被人工智能生成的内容所淹没,这使得这个问题变得更加复杂,使得确定所训练的数据模型类型非常棘手。
莱斯大学的Sina Alemohammad建议,开发水印来识别人工智能生成的图像可能会有所帮助,但他警告说,忽略隐藏的水印可能会降低人工智能生成的图像的质量。
阿穆罕穆德总结道:“如果你这样做,你就被诅咒了,如果你不这样做,你就被诅咒了。但在图像上加水印肯定比不加好。”
人工智能消耗其输出的长期后果正在激烈辩论,但目前,人工智能开发人员需要找到解决方案,以确保他们的模型质量。