人工智能工具可以创建个性化数字身份的图像,但这涉及到微调LoRA以获得良好的效果。InstantID是一个零镜头插件,使生成AI模型能够使用单个参考面部图像生成一致的图像。
为了获得生成模型来创建特定人物的一致连贯图像,通常需要使用LoRA。
LoRA是低秩自适应的缩写,是一种用于自适应图像生成模型的技术,而无需完全重新训练它们。如果你想让你的模特真的很擅长拍Taylor Swift的照片,你可以在她的一堆照片上制作一个LoRA。
创建LORA需要时间、大量的参考图像和大量的处理资源。InstantID改变了这一切,并可能意味着Loras在许多应用程序中的终结。
InstantX团队创建了InstantID,这是一个不需要训练或微调的零镜头模型。通过使用一张脸作为参考,InstantID可以启用SD1.5或SDXL等文本到图像的稳定扩散模型,以创建更多的人的图像。
InsantID终于出炉了!有关更多详细信息,请查看论文。代码和预先培训的模型将在本月内发布。
论文:www.example.com
项目页面:www.example.com
代码:https://t.co/FlqTknoTxG pic.twitter.com/HiFUkOSYlB
-弗兰克(浩凡)王(@浩凡_王)2024年1月17日
它使用了一个IdentityNet组件,该组件强烈关注参考图像中的特定面部元素,而不是参考图像中的其他元素。
InstantID的一大好处是一致的字符生成。假设你想在你正在制作的游戏或平面小说中生成角色的图像。要让人工智能图像生成器保持角色面部特征的一致性是非常困难的。
InstantID使AI图像生成器能够在保持高保真面部特征的同时保持其风格和其他生成功能。
从单个参考图像生成的图像示例。来源:arXiv
InstantID也带来了巨大的风险。Loras是Civitai等有争议网站上的一大特色,用户可以使用它们来创建人工智能生成的色情内容。这个网站上到处都是这样的东西,但要做出一个像样的劳拉,需要工作和专业知识。
InstantID很可能会打开人工智能的假闸门,因为你不再需要LoRA,也不再需要访问大量的云计算能力来创建特定人物的真实形象。一张照片就够了。
在一个不幸的讽刺的情况下,论文使用泰勒斯威夫特在其许多示例图像。随后在本周推出的一系列假NSFW Taylor Swift照片可能是即将到来的迹象。
InstantX团队指出,InstantID能够“潜在地创建冒犯性或文化上不合适的图像”。