《文升图》升级,学习个性化参考,生成无限多样的图片,轻松设计玩具建筑
《文升图》升级,学习个性化参考,生成无限多样的图片,轻松设计玩具建筑
近日,来自南加州大学、哈佛大学等机构的研究团队提出了一种基于提示的学习新方法。
该方法允许任何基于文本提示的生成模型(例如 、 3D等)通过一组参考图片来学习相应的视觉属性共性并改变文本提示分布。
论文地址:
项目主页:
代码链接:
不仅如此,学习到的线索分布可以用来生成与参考图像相似但更多样化的图像。 它还支持调整分布的方差以控制多样性、组合多个线索分布以生成混合概念图像等操作。
简单来说,只需使用几张到十几张参考图片,就可以无限生成与参考图片视觉效果相符且具有显着多样性的图片,轻松生成高达玩具模型的各种新设计!
在3D生成的模型上即插即用,还可以生成不同风格的跑车、建筑等:
它还支持文本引导编辑功能,类似于:
它还具有 3D 生成编辑功能:
支持训练后控制生成多样性的操作(二线向下多样性增加):
支持混合概念:
如下图所示,用户只需提供一组参考图像,例如不同的高达玩具图像,即可获知该组图像对应的文本提示分布D*。
然后,在推理时,通过从 D* 采样生成具有足够变化和多样性的分布内输出图像。
此外,D*还支持文本引导编辑以生成图像变化。 例如,从D*的提示分布中采样可以生成高达玩具跳跃姿势的图像等。
由于该方法相对独立于下游生成模型,因此学习到的线索分布也适用于其他基于文本线索的生成任务。
除了演示中以文本转3D生成为例之外,通过类似的提示修改,也可以生成符合文本提示并进行适当改变的3D模型效果图。
研究动机
如今,随着扩散生成模型的日益蓬勃发展,视觉生成的质量也相应提高。
最先进的图像生成模型,如DALL·E、、、等系列文本生成图像模型,已经可以生成非常高质量的图像。
但同时,由于文字提示很难概括视觉概念的细节,一些研究,例如,通过图片引导的方法追求模型生成的可控性和个性化(/)能力,即使生成模型根据参考图片了解个性。 个性化概念,例如特定的宠物狗、特定的玩具等,然后根据个性化的概念变化,使用文本引导提示编辑生成图片。
然而,这些方法都专注于个性化特定的实例,但在很多情况下,用户可能需要个性化更抽象的视觉特征并生成新的实例,例如生成具有一致设计风格或类似绘画风格的新高达玩具。 新的卡通人物、新的绘画等等。
如果使用现有的实例级个性化方法,很难生成与参考图片中给出的实例不同的图片,并且如果参考图片不代表同一实例,则现有的实例级个性化方法无法捕获变化在参考图像中,导致生成过程中的多样性有限。
方法概述
训练方法主要分为三个部分。
1.基于类似的线索学习方法,仅更新固定长度的线索嵌入,其余下游文本编码器和扩散模型的参数被冻结。
2.在提示学习的基础上,引入提示分布学习,即保存多个相同长度的文本提示嵌入,利用这些提示的语义特征来拟合提示在语义空间中的高斯分布。
同时,为了保证不同线索在语义空间中具有不同的特征,引入正交损失项(Loss)来最小化语义空间中不同线索之间的余弦相似度。
3.为了优化整体分布,采用重参数方法进行多次可微采样。 最终的损失函数是与训练下游生成模型相同的图像重建损失或噪声预测均方损失函数,并由超参数控制。 正交损失函数。
推理时,可以直接从学习到的文本提示分布中进行采样,作为下游生成模型输出图片的提示输入。
如果需要文本引导的提示修改,则为嵌入空间中的所有提示添加相同的文本前缀或后缀,并在语义特征空间中重新拟合高斯分布并采样作为下游生成模型的输入。
多样化、个性化的实验和结果生成
我们首先展示了我们的方法生成多样化个性化图像的能力。 生成的图像保留了训练图像中共同的视觉特征,同时又与训练图像不同,具有较高的多样性。
给定一组不容易用文本描述的训练图像(通常为 5-20 个),但同时共享一些相似的视觉属性,可以通过简单地从学习的分布中采样来生成一组不同的分布内图像:输入提示。 。
因此,学习到的线索分布可以被视为与训练图像集对应的描述的分布。
与基线比较
我们与流行的实例级个性化方法进行比较,包括,。
我们还比较了使用简短描述作为文本提示的方法与使用长文本和详细描述作为提示的方法。 这些比较凸显了我们的方法处理训练图像的相似性和多样性的能力。
使用相同的预训练版本2.1,并使用基线工作中提供的默认超参数。
比较结果
下图显示了与基线方法的直观比较。 短文本提示方法和长文本提示方法都不能产生与参考图像视觉上一致的结果,因为预训练的生成模型理解的名词很可能偏离参考图像,并且参考的细节图像很难用语言描述。
使用基线个性化方法生成的图像通常显示有限的变化或视觉属性,这些变化或视觉属性与所有示例中的参考图像不一致。 这些方法都试图将图像中的概念与单个固定线索嵌入相关联,因此语义固定嵌入缺乏变化。
虽然去噪过程会引入一些随机性,但由于训练目标是将各种概念与相同的固定嵌入关联起来,这会导致1)提示嵌入欠拟合,只学习到一个过于宽泛的概念,例如名词 of对象类别本身,导致生成的图片与参考图片不一致(下图中中间列底部起第2行和第4行),或者2)拟合训练图像的特定视觉组合,因此这导致生成的图像缺乏多样性(下图左下列起的第 2、3、4 行)。
通过使用多个线索模型并优化线索分布来建模多个概念,我们提出的方法能够产生更多样化的外观、视角和其他实质性变化,例如左列的最后一行。 我们的方法还可以对材质和背景信息进行建模,并生成颜色和姿势发生显着变化的新实例,如中间列示例的最后一行所示。
以及线条、整体风格等的变化,并生成新的涂鸦创作,如右栏最后一行所示。 总体而言,可以生成在颜色、透视、姿势、布局、细节设计等方面产生实质性变化的图像,同时保持与参考图像一致的适当视觉属性。
质量和多样性评估
我们对实物照片(大比例尺和小比例尺)、著名艺术家的作品、风格鲜明的卡通人物插画以及网络社区插画家的作品等12幅不同图像的多样性和质量进行了定量评估。 、 、 并接受了该场景的培训。
自动评估指标
我们使用已建立的自动评估指标来评估生成的图像,这些指标衡量合成图像的多样性和真实图像之间的相似性。
在下表中,使用 FID、CLIP-I 和 DINO 等流行指标来评估图像质量。 我们的方法在所有三个质量指标中都达到了最佳质量,这表明我们的方法能够创建更多满足提示要求的高质量图像。
此外,指标如表1所示。它测量真实样本密集聚集的区域,并计算包含至少一个生成样本的真实样本邻域的比例,反映图像的多样性。 我们的方法总体上实现了最佳的覆盖范围和多样性。
人工评估
我们根据 12 组参考图像进行手动评估。 对于每个参考图像集,我们分别使用基线方法和我们的方法生成图像,每种方法生成 40 张图像,总共 1,920 张图像。 我们分配了 10 名独立注释者。
对于 12 个参考集中的每一个,要求注释者根据他们对生成图像与参考集的相似性以及生成集内的多样性的感知来选择最优选的生成图像集。
这些方法是匿名的,因此注释者不知道哪个生成集对应于哪个方法。 我们总共收集了 120 个样本并统计了偏好的频率。 与三个基线模型相比,我们生成的图像在多样性方面总体表现更好。
喷嘴分布可控性
下图显示了更多文本引导提示编辑的结果。
除了文本引导的提示编辑之外,学习到的提示分布还可以通过缩放方差来控制生成的多样性。 如下图所示,当缩放系数γ变大时,生成的图像更加随机,而当缩放系数等于0时,生成的图像的多样性和随机性显着下降。
还可以根据权重添加不同的提示分布,达到生成混合概念图片的效果。 如下图所示,将中国山水画和梵高画对应的提示分布按不同比例混合,可以生成多种混合图像。 特色图片。
应用于3D生成
由于该方法独立于下游生成模型,因此学习到的提示分布可以即插即用用于其他文本提示驱动的生成任务,例如 3D 文本生成。
我们在实验中使用它作为3D生成模型,结果表明它也可以体现3D生成任务中的多样性生成和文本提示编辑等功能。
总结
这项工作侧重于比实例级别更广泛的图片集级别的个性化生成任务,从而使生成的图像更加多样化和创新,但同时符合参考图片的一些视觉属性。
工作中还存在一些不足。 例如,生成效果高度依赖于训练图像的质量和多样性,而3D生成的结果仍有改进的空间。
研究人员希望未来能够有办法优化该方法,使其更加稳健,并提高类似 3D 生成任务的性能。 更多详情请参阅原文。
参考:
本文来自微信公众号“新智元”(ID:),编辑:LRS,36氪授权发布。