稳定AI刚刚宣布发布其最先进的实时文本到图像生成器SDXL Turbo。
当您使用AI文本到图像生成器时,提示符和图片之间通常至少需要几秒钟的等待时间。使用SDXL Turbo,图像以毫秒为单位生成。
更令人印象深刻的是,当您编辑提示符时,图像会以最快的速度实时变化。
稳定AI的演示视频让你有一个很好的感觉,这是多么开创性。
对抗扩散蒸馏
这背后的秘诀是一种新的蒸馏技术,称为对抗扩散蒸馏(ADD)。
标准扩散模型(DM)是大多数AI图像生成器的背后,并提供高质量的图像。DM从一个嘈杂的图像开始,并逐渐去除噪音,直到它与提示相关的图像相似。
使用DM的推理过程是一个缓慢的迭代过程,需要大量的步骤和大量的计算机处理。
另一种图像生成方法是使用生成对抗网络(GAN)。GAN在生成器和神经网络之间进行对抗性博弈。GAN在一个步骤中生成一个图像,所以他们真的非常快。
GAN的问题是它们不能很好地扩展,有时会遭受模式崩溃的困扰。当生成器陷入局部最优状态,只生成有限种类的图像时,就会发生这种情况。
ADD是两种方法之间的一种混合模型。它结合了DM的可扩展性和质量与GAN的速度。
而且很快。当在Nvidia A100上运行SDXL Turbo时,它可以在207ms内生成512 × 512的图像。
模特的体重和代码可用于非商业用途的拥抱脸。如果你想尝试测试版演示,你可以在ClipDrop上查看。演示让你感觉到了速度,但图像的质量降低了。
SDXL Turbo也可以设置为使用2或4个步骤来生成质量更好的图像。
SDXL Turbo生成的单步512 × 512图像。来源:Stability AI
重大影响
你对此的第一反应可能是,不必等这么长时间来生成你的图像,这可能会让你松一口气,这是一个很大的好处。
但SDXL Turbo将实现更多。使用它的一步图像生成方法,只需想想将释放多少计算能力。
实时生成功能意味着您最终可以创建动画或动态视觉效果来实时匹配故事的文本。
自从Stability AI发布了改进的扩散模型SDXL 1.0以来,还不到4个月,这已经非常好了。
在盲测中,用户更喜欢SDXL Turbo 4步生成的图像,而不是SDXL 50步生成的图像。在短短四个月内,效率提高了12倍,这是惊人的。
这让你想知道AI图像生成器在一年后会有多好。