创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
种政 投稿自 凹非寺量子位 | 公众号 QbitAI【GODR-350】スーパーボインハイスクール VOL.1
只需两张图像,不到30秒,就能让马斯克穿牛仔走红毯~
或者让寡姐带货国风Polo衫~
色狼窝就是二次元换装也不在话下。
来自中山大学、Pixocial等机构经营发布轻量化模子架构CatVTON。他们所以Stable Diffusion v1.5 inpainitng为基础模子。
来望望更多闭幕。
用扩散模子进行臆造试衣
CatVTON不错罢了传统平铺服装图到东说念主物的换装。
无论是上衣、裤子、裙子,如故套装,种种不同品类服装齐不错。
其体式和纹理齐能保合手较高的一致性【GODR-350】スーパーボインハイスクール VOL.1。
另外,CatVTON 还不错罢了东说念主物A到东说念主物B的换装。
无需显式地指定类别,凭证 Mask 的不同即可完成标的服装的试穿,相沿单独的上衣、裤子、裙子或者全身多件服装同期更换 。
既然如斯,那又是怎么罢了的呢?
轻量化模子架构
CatVTON 在功能上丰富种种, 但其模子架构却超越大略高效:
2个网罗模块(VAE+UNet)899.06M总参数目< 8G推理显存(输出图像 1024×768 )轻量化的架构起首于 CatVTON 对现存形态模块冗余的不雅察:
基于Warping的形态依靠几何匹配对服装进行形变再运用试穿模块和会,闭幕生硬不当然;基于扩散模子的形态引入ReferenceNet,加剧了锤真金不怕火和推理的职守;
具体而言,CatVTON 通过在输入上把东说念主物、服装在通说念维度拼接(Concatenate),在结构上开脱了对稀零的 ReferenceNet 的依赖,跳过了对图像臆造试衣来说莫得权臣匡助的文本交叉精良力,同期也不需要任何稀零的图像编码器来补助生成。
下表详实地比拟了不同形态与 CatVTON 的模块数目、参数目、可锤真金不怕火参数目、显存占用、推理条款。
在网罗模块上,CatVTON 只需要 VAE+UNet,无需任何稀零的编码器;在模子总参数目上,CatVTON 比其他形态至少缩减了44%;在显存占用上,CatVTON 也只消其他形态的一半甚而更低,体现了 CatVTON 在模子架构轻量化上的上风。
△模子高效性联系项详实比拟
在锤真金不怕火上,CatVTON 探讨了在将预锤真金不怕火扩散模子迁徙到 TryOn 任务时去噪 UNet 中信得过起作用的模块。
领先,去噪 UNet 在结构上是由不同特征模范的ResNet 和 Transformer Blocks 堆叠而成(如下图)。其中 ResNet 是卷积网罗,具有空间不变性,适用于特征的提真金不怕火,并不厚爱跨空间的特征交互,这一部分在扩散模子进行大规模预锤真金不怕火时,还是具备了敷裕的特征编码身手,因此与迁徙到 TryOn任务关联性不彊。
Transformer Block 里面结构又不错细化为三个部分:Self Attention, Cross Attention 和 FFN。其中Cross Attention在 T2I 任务顶用于与文本信断交互,FFN 起到特征映射的作用,因此与服装、东说念主物特征交互最联系的就是 Self Attention。
表面上笃定了需要锤真金不怕火的模块后,在执行上,CatVTON 文中还进行了消融,发现对 UNet、Transformer Block 和 Self Attention 永诀进行解锁锤真金不怕火,其可视化闭幕并莫得明显的各别,同期在观念上也超越接近,考证了“Self Attention是将预锤真金不怕火扩散模子迁徙到 TryOn 任务的关节模块”的假定。
临了通过表面和执行锁定的Self Attention 部分,只消49.57M 参数,仅占总参数目 5.71% 的部分,对其进行微调,就不错罢了传神的试穿闭幕,在上一节表格中不错看到,相较于其他形态,CatVTON 将可锤真金不怕火参数目减少了10 倍以上。
临了回来,CatVTON重新念念考和遐想了基于扩散模子的臆造试穿框架,将多任务、多品类的臆造试衣集成到归并模子中,以轻量化的框架和参数高效的锤真金不怕火战略罢了了SOTA的试穿闭幕,镌汰了模子的锤真金不怕火、推理缱绻需求,更故意于臆造试衣模子走向落地与应用。
神志主页:https://zheng-chong.github.io/CatVTON论文地址:https://arxiv.org/abs/2407.15886【GODR-350】スーパーボインハイスクール VOL.1