AIGC-AI人像生成系列-1PhotoMaker：定制逼真的人体照片

photoTom

目录

一. 项目概述与贡献

a) 项目概述

b) 主要贡献

二. 方法详解

a) PhotoMaker和ID导向的数据构建管道的概览

PhotoMaker：

ID导向的数据构建管道：

b) 方法详细解读

堆叠ID嵌入（Stacked ID Embedding）：

2. ID导向的数据构建管道：

3. 训练过程：

4. 推理（Inference）：

5. 应用和灵活性：

6. 实验和评估：

三. 重新语境化结果

四. 将艺术品/老照片中的人物带入现实结果

五. 风格化

六. 改变年龄或性别结果

七. 身份混合

八. 比较结果

九. 论文

关注公众号【AI杰克王】

继 FaceChain, Easyphoto等AI人像工作, PhotoMaker横空出世。

PhotoMaker通过少数几张用户ID图像输入，结合提示词，实现个性化、多样化的用户ID图像生成.

一. 项目概述与贡献

a) 项目概述

PhotoMaker可以很好地保留输入图像池中的ID 信息, 并且支持许多有趣的应用程序，例如 (a) 更改属性，(b) 将艺术品或旧照片的人带入现实，或 (c) 身份混合。

b) 主要贡献

提出的PhotoMaker方法是一种高效的个性化文本到图像生成方法，能够生成逼真的人类照片，同时保持高度的个性化和身份（ID）的保真度。
堆叠ID嵌入（Stacked ID Embedding）：文章提出了一种新的嵌入技术，通过将多个输入ID图像的编码堆叠在一起，形成一个统一的ID表示，这不仅能够全面捕捉同一ID的多种特征，还能整合不同ID的特征，为后续的图像生成提供支持。
ID导向的数据构建管道：为了训练PhotoMaker，文章提出了一种新的数据构建管道，用于组装训练数据。这个管道能够生成一个以ID为中心的数据集，包含大量具有不同表情、属性和场景的ID图像，从而提高了模型的训练效果。

二. 方法详解

a) PhotoMaker和ID导向的数据构建管道的概览

PhotoMaker：

- 文本编码器（Text Encoder(s)）和图像编码器（Image Encoder）分别提取文本嵌入和图像嵌入。

- 通过MLP（多层感知机）层将类别嵌入（例如，男性和女性）与每个图像嵌入进行融合。

- 将融合后的嵌入沿长度维度连接起来形成堆叠ID嵌入（Stacked ID Embedding）。

- 将堆叠ID嵌入输入到所有交叉注意力层（cross-attention layers）中，以便在扩散模型中自适应地合并ID内容。

ID导向的数据构建管道：

- 图像下载（Image Downloading）：根据名人列表从搜索引擎中爬取数据，每个名字下载约100张图片。

- 人脸检测与过滤（Face Detection & Filtering）：使用RetinaNet检测人脸边界框并过滤掉尺寸过小的检测结果。

- ID验证（ID Verification）：对剩余的图片进行ID验证，确保图像中的人脸属于当前的ID组。

- 裁剪与分割（Cropping & Segmentation）：根据检测到的人脸区域裁剪图像，并使用Mask2Former进行全景分割。

- 标题生成与标记（Captioning & Marking）：使用BLIP2为裁剪后的图像生成标题，并标记出与当前ID相对应的类别词。

b) 方法详细解读

堆叠ID嵌入（Stacked ID Embedding）：

- 为了更好地表示和保留输入ID图像的身份信息，作者提出了将多个输入ID图像的编码在语义层面上堆叠起来，形成一个统一的ID表示。

- 这个堆叠的ID嵌入可以被视为待生成ID的统一表示，每个子部分对应一个输入ID图像。

- 在训练过程中，模型会从同一ID的不同图像中学习，以避免记忆与ID无关的特征，如表情和视角。

2. ID导向的数据构建管道：

- 为了训练PhotoMaker，作者设计了一个自动化的数据构建管道，用于构建一个以ID为中心的数据集。

- 这个管道能够收集大量具有不同表情、属性和场景的ID图像，并且为每个图像自动生成描述性标题，以适应训练需求。

3. 训练过程：

- 在训练过程中，模型会随机选择1-4张与目标ID相同的图像来形成堆叠ID嵌入。

- 为了提高生成性能，作者还引入了无分类器引导（classifier-free guidance），使用掩蔽扩散损失（masked diffusion loss）和延迟主题条件（delayed subject conditioning）。

4. 推理（Inference）：

- 在推理阶段，PhotoMaker可以接受任意数量的ID图像作为输入，同时保持与其他调优无关方法相当的生成效率。

- 生成的图像可以在大约10秒内完成，这比DreamBooth方法快约130倍。

5. 应用和灵活性：

- PhotoMaker不仅可以生成具有高ID保真度的图像，还可以在保持高效率的同时，允许用户通过调整提示权重或输入图像池中不同ID图像的比例来控制新生成ID的混合比例。

6. 实验和评估：

- 作者通过实验验证了PhotoMaker在ID保真度、生成质量、面部多样性和文本一致性方面的表现，并与其他方法进行了比较。

- 通过用户研究，进一步展示了PhotoMaker在不同应用场景下的优势，如改变人物属性、将艺术作品或旧照片中的人物带入现实，以及进行身份混合等。

三. 重新语境化结果

四. 将艺术品/老照片中的人物带入现实结果

通过将艺术绘画、雕塑或人物的老照片作为输入，PhotoMaker可以将一个人从上个世纪甚至古代带到本世纪，为他们“拍摄”照片。

五. 风格化

PhotoMaker 不仅能够生成逼真的人类照片，而且还可以在保留 ID 属性的同时进行风格化。

六. 改变年龄或性别结果

通过简单地替换类别词（例如，男人和女人），可以在保持原始身份的同时实现性别和年龄的变化。

七. 身份混合

如果用户提供不同ID的图像作为输入，PhotoMaker可以很好地整合不同ID的特征，形成一个新的ID。

对于身份混合，可以通过控制输入图像池中身份图像的百分比或通过提示加权的方法来调整合并比率。

首先展示该方法如何通过控制输入图像池中不同 ID 的比例来定制新的 ID。

然后，我们将与特定 ID 相关的图像对应的嵌入乘以一个系数，以控制其融入新 ID 的比例。

八. 比较结果

与其他方法相比，PhotoMaker 可以同时满足高质量和多样化的生成能力、可编辑性、推理效率高和 ID 保真度强。

九. 论文

https://arxiv.org/pdf/2312.04461.pdf

关注公众号【AI杰克王】

1. 回复“资源”，获取AIGC 博客教程，顶级大学PPT知识干货；

2. 回复“星球”，获取AIGC 免费知识星球入口，有前沿资深算法工程师分享讨论。

欢迎加入AI杰克王的免费知识星球，海量干货等着你，一起探讨学习AIGC!