AI发条(aifatiao.com)7月19日 消息:为了解决人脸身份保存和可编辑性方面的问题,研究人员提供了一个独特的免优化框架(名为 DreamIdentity)。通过创建一个独特的多词多尺度身份编码器 (M2ID 编码器),以实现准确的身份表示,并使用自增强的可编辑性学习方法将编辑任务移到训练阶段。他们的方法既保持了身份的一致性,又实现了文本引导的灵活修改,有效实现了身份再语境化。
据了解,传统的文本到图像模型可以根据自然语言描述生成与特定人脸身份相关的不同情境的图像。然而,现有的优化无关方法在保持身份的同时保持模型的可编辑性方面存在困难。
由于基于扩散的大规模文本到图像 (T2I) 模型,创建视觉材料的学科最近发生了变化。这些 T2I 模型使制作引人入胜、富有表现力且以人为本的图形变得简单。这些模型的一个有趣的用途是,它们能够根据日常生活中特定人的面孔(我们的家人、朋友等),使用自然语言描述生成与身份相关的各种情况。身份重新情境化挑战与图1所示的典型 T2I 任务不同,要求模型在遵守文本提示的同时保持输入面部识别(即 ID 保留)。
为每个人脸身份个性化预训练的 T2I 模型是一种可行的方法。它需要学习通过增强单词嵌入或微调模型参数来将特定单词与本质相关联。由于每个身份的优化,这些基于优化的方法可能会更有效。为了避免耗时的每个身份优化,各种免优化方法建议直接将从预训练图像编码器(通常是 CLIP)获得的图像特征映射到词嵌入中。然而,这会损害 ID 的保存。因此,这些技术存在损害原始 T2I 模型编辑技能的危险,因为它们要么需要微调预训练 T2I 模型的参数,要么改变原始结构以注入额外的网格图像特征。
简而言之,所有并发的免优化工作都在努力保持身份,同时保持模型的可编辑性。他们认为,两个问题,即(1)错误的身份特征表示和(2)训练和测试目标不一致,是现有无优化研究中上述困难的根本原因。一方面,目前最好的 CLIP 模型在 top-1人脸识别准确率上仍然比人脸识别模型差很多(80.95% vs.87.61%),这表明所使用的通用编码器(即 CLIP)通过同时努力不足以完成身份重新情境化工作。此外,CLIP 的最后一层功能主要关注高级语义而不是精确的面部描述, 输入面部的可编辑性受到使用普通重建目标来学习单词嵌入的所有并发任务的负面影响。为了解决上述身份保存和可编辑性方面的困难,他们提供了一个独特的免优化框架(名为 DreamIdentity),具有准确的身份表示和一致的训练/推理目标。更准确地说,他们在 Vision Transformer 的架构中创建了独特的多字多尺度 ID 编码器(M2ID 编码器),以实现正确的识别表示。该编码器在相当大的人脸数据集上进行了预训练,并将多尺度特征投影到多词嵌入中。
中国科学技术大学和字节跳动的研究人员提出了一种新颖的自我增强可编辑性学习方法,将编辑任务转移到训练阶段。该方法使用 T2I 模型通过生成名人面孔和各种目标编辑的名人图像来构建自增强数据集。M2ID 编码器使用此数据集进行训练,以提高模型的可编辑性。他们对这项工作做出了以下贡献:他们认为,由于错误的表示和不一致的训练/推理目标,现有的免优化方法对于 ID 保存和高可编辑性来说是无效的。
从技术上讲,(1)他们建议使用 M2ID 编码器,这是一种具有多重嵌入投影的 ID 感知多尺度特征,用于适当的表示。(2) 它们结合了自我增强的可编辑性学习,使底层 T2I 模型能够提供高质量的数据集进行编辑,以实现一致的训练/推理目标。综合研究证明了他们的方法的有效性,有效地实现了身份保留,同时允许灵活的文本引导修改或身份重新上下文化。
(本文转载自站长之家)