多模态医学分割Clip驱动的器官分割和肿瘤检测通用模型(ICCV 2023)

论文地址:CLIP-Driven Universal Model for Organ Segmentation and Tumor Detection(ICCV 2023)
代码地址:CLIP-Driven-Universal-Model

摘要

公共数据集的增多表明了自动的器官分割和肿瘤检测领域的显著影响。然而,由于每个数据集的规模较小且部分标记问题,以及对不同类型肿瘤的有限研究,由此产生模型通常局限于分割特定的器官/肿瘤,往往忽略解剖结构的语义,也不能扩展到新领域这些问题。为了解决这些问题,我们提出了基于CLIP的(Contrastive Language-Image Pre-training)文本嵌入的CLIP-Driven通用模型,用于分割。这种基于CLIP的编码捕捉了解剖关系,使模型能够学习结构化的特征嵌入并分割25个器官和6种类型的肿瘤。所提出的模型是从14个数据集的组装中发展而来,使用了总共3410个CT扫描进行训练,然后在来自3个额外数据集的6162个外部CT扫描上进行评估。我们在医学分割十项挑战(MSD)公共排行榜上排名第一,并在Beyond The Cranial Vault(BTCV)上取得了最先进的结果。此外,通用模型在计算上更有效率(速度提高6倍),相比特定于数据集的模型更好地推广到来自不同站点的CT扫描,并在新任务上展现了更强的迁移学习性能。

首图

首图
各个词CLIP嵌入的余弦相似度。CLIP通过在嵌入空间中将相似的概念映射到彼此靠近的位置,揭示了解剖结构的固有语义。例如,“肝脏Liver”与“肝脏肿瘤Liver Tumor”和“肝脏血管Hepatic Vessel”具有很大的相似性

方法

在这里插入图片描述

text branch

采用clip编码器,参数冻结。
在这里插入图片描述

vision branch

类似于Unet结构,拿出最深层特征与text的embedding拼接,经过mlp后生成theta,再输入回分割的branch

结果可视化

t-SNE可视化
嵌入的t-SNE可视化。我们比较了(a)使用独热标签编码和(b)使用CLIP标签编码的解码器嵌入空间,其中包含六个类别,即肝脏、肝脏肿瘤、右肾、左肾、肾脏肿瘤和肝脏血管,与首图中的类别相同。CLIP标签编码实现了更好的特征聚类,并展示了解剖结构化的语义。(这里比较明显的一点是,b图中左边基本都是肾相关,右边都是肝相关,但独热编码做不到这一点)