小罗碎碎念
随着空间分子成像技术发展,单细胞空间转录组(SCST)数据为研究组织微环境提供了丰富信息,但数据质量问题和现有分析方法的局限性阻碍了深入研究。GIST框架借助预训练的组织学图像基础模型提取详细形态特征,通过混合图Transformer将其与转录组特征融合。
作者姓名 | 单位(中文) |
---|---|
Yongxin Ge | 重庆大学大数据与软件工程学院 |
Junhan Zhao | 哈佛大学公共卫生学院生物统计学系 |
Yuchen Li | 斯坦福大学医学院放射肿瘤学系 |
Xiyue Wang | 斯坦福大学医学院放射肿瘤学系 |
Yi Song | 重庆大学三峡医院神经外科 |
在实验阶段,研究人员利用肺癌、乳腺癌和结直肠癌的空间转录组数据对GIST进行全面验证。结果显示,GIST在细胞类型识别、空间域检测和基因表达分析等方面表现卓越。在肺癌数据集上,其聚类准确性远超其他方法,能更精准地检测肿瘤相关基因;在乳腺癌和结直肠癌数据集中,GIST同样出色,不仅能更准确地识别空间区域和细胞类型,还显著增强了关键基因的表达检测。
综合来看,GIST为整合组织学和空间转录组分析提供了通用框架,有效提升了空间转录组分析的精度和可靠性,为理解组织空间结构和疾病机制提供了新视角。不过,该框架在非癌组织分析方面存在不足,未来研究可在优化细胞特异性特征编码、整合转录组学基础模型以及拓展疾病类型评估范围等方向展开。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、引言
空间分子成像技术的进步使得在亚细胞分辨率下对复杂组织内的空间转录组特征进行检测成为可能[1-3]。
探索组织微环境中单个细胞的空间坐标和转录组特征,加深了作者对细胞间相互作用空间多样性的理解。
商业化的单细胞空间分析技术,如NanoString CosMx空间分子成像仪(SMI)[4]和Vizgen MERSCOPE/MERFISH平台[4,5],在提供转录组特征、细胞位置和边界以及多通道成像模式方面取得了令人鼓舞的结果。
例如,NanoString CosMx平台能够同时检测多达1,000个基因,并分析每张玻片上100,000至600,000个细胞,超越了现有的单细胞组学方法。这些新兴的单细胞空间转录组学(SCST)平台,结合准确及时的病理学评估[6],正在推动生物医学研究的范式转变,提升作者对复杂组织结构在空间和功能上的理解以及疾病机制的前所未有的分辨率[7,8]。
完善空间基因表达数据仍是一个重大挑战。
空间转录组(ST)谱受到缺失值[9]、数据稀疏性[10]、低覆盖率[2]和噪声[11]等问题的影响,这些问题使得有效的生物学探索变得复杂,尤其是为人工神经网络创建精确的训练数据集[12]。
同时,单细胞空间数据中的多重免疫荧光成像捕获了组织样本中的高分辨率、详细特征,包括细胞类型、细胞器形态和空间细胞分布。将这些成像属性与转录组数据整合,有望减轻缺失值和数据噪声带来的挑战。
由于单个细胞与其邻近细胞之间的空间关系可以通过空间邻接图自然表示,因此基于图的人工智能成为空间数据建模的直观方法。
值得注意的是,结合了注意力机制的基于图模型,如GAT和图变换模型[13,14],已显示出有望的进展并提高了研究结果的准确性。
精确识别组织空间域对于理解不同的解剖和功能区域至关重要但具有挑战性。
当前使用SCST数据的方法侧重于揭示空间簇,如集成工具Seurat[15]和Scanpy[16]。这些聚类技术最初是为处理非空间单细胞RNA测序数据而提出的。因此,仅使用基因表达数据作为输入。
研究人员尝试将基因表达数据与基本的空间和细胞信息整合,以改进空间域的识别。StLearn[17]同时利用基因表达谱和从组织图像中提取的特征。BayesSpace[18]采用贝叶斯统计框架,分析基因表达矩阵和空间邻近信息。
此外,SpaGCN[19]使用图卷积网络构建基于图像地理空间信息的基因表达空间图来识别空间域。STAGATE[20]利用图注意力网络(GAT)[21]动态考虑附近基因表达。
通过整合形态和空间解析的转录数据,MUSE[22]使用多模态结构嵌入方法寻找被多种模式遗漏的任何组织亚群,并补偿特定模式的噪声。
PROST[23]通过两个关键模块,PROST指数(PI)和PROST神经网络(PNN),优化了空间信息和基因表达谱的整合。CellCharter[24]利用变分自编码器(VAE)增强细胞特征与病理学合并。
尽管这些方法已证明有效,但利用空间成像特征中嵌入的细胞形态学信息,超越类似的细胞定位的潜力尚未得到充分利用。
多种先进的深度学习方法被提出以更好地提取图像特征。
STACI[25]通过采用过参数化的基于图的自动编码器来分析空间转录组基因数据和染色质成像数据。
为了减少ST数据中噪声的干扰,TIST[26]通过全面分析转录组数据和图像,从高分辨率组织病理学图像中提取互补的细胞表型信息。Leng等人[27]提出了一种标签高效的方法,利用课程学习和信心学习来检测ST数据分析的噪声。
为了解析空间转录组图中的细胞间通讯,BLEEP[28]使用微米分辨率的对比学习同时构建配对图像和表达谱,从而将原始数据集映射到一个低维的联合嵌入空间。TCGN[29]利用卷积神经网络(CNN)、变换编码器和图神经网络(GNN)作为组织病理学图像分析的输入,以处理ST数据中的病理图像。
SiGra[30]利用图变换器聚合周围细胞的形态学特征,实现了最先进的性能。然而,这些方法尚未开发用于充分利用组织学图像特征来专门提取单细胞空间数据的独特形态学特征,而是依赖于在自然图像上训练的视觉模型,这些模型主要将组织学图像视为一般图像数据,或者应用像分割这样的基本图像处理技术。
这种方法导致了对组织病理学感知和特定领域智能的缺乏,这些智能对于完全解释图像是必要的。
深度学习赋能的数字病理学在组织学图像中揭示了定量形态信号,这些信号对于诊断和预后预测具有指示作用[31-35]。
PhaseFIT[36]通过使用一种精确执行图像转换的分割算法来改进图像生成,同时整合通道和空间注意力,专注于最具影响力的特征图。
近年来,利用自监督学习(SSL)训练病理基础模型[35,37]的方法取得了显著进展,这些模型使用了数百万张组织学图像。
CTransPath[38]作为一种开创性的组织学基础模型,采用了在来自25个解剖部位和超过32种癌症亚型的32,220张全切片图像的15.6百万个图块上训练的CNN和视觉变换器[39]混合模型。该模型已在不同任务上独立评估,如图像检索、疾病分类、有丝分裂检测和病变分割。
随后,UNI[37]直接使用DINOv2[40]架构在1亿个图块上进行训练,并通过33个病理分析任务的成功验证。这些方法突出了SSL在无需承担高数据集标注成本的情况下增强视觉特征的可能性。
同样,Virchow2[41]使用领域启发式训练方法,在3.1百万张组织病理学全切片图像上进行训练。
Prov-GigaPath[42]在来自171,189张全切片的1.3亿个256×256病理图像图块上进行预训练。为了捕捉整个切片上的局部和全局模式,Prov-GigaPath通过将这些图像分割成视觉标记的长字符串来转换切片。
UNI、Virchow2和Prov-GigaPath都使用了DINOv2框架,并声称针对不同数据集定制了独特的预训练策略。
本文中,作者建立了一个名为GIST(Gene expression and histology Integration for SpaTial cellular profiling)的新型深度学习框架,用于多模态SCST数据分析。
GIST利用自监督的组织学图像基础模型提取组织和细胞的详细形态学特征。通过混合图编码整合多模态数据,GIST有效地将形态学信息与转录组数据相结合,精确识别细胞类型并分析空间表达模式。
作者展示了GIST能够有效去噪ST数据,并在下游任务中表现出色,包括空间领域识别、特定标记基因检测的增强以及差异表达基因分析。
作者使用不同ST平台收集的人类肺癌、乳腺癌和结直肠癌数据集验证了GIST的可泛化性能。GIST优于现有深度学习方法,并在分割微环境和去噪转录组数据方面将准确性提高了多达49.72%。
GIST可能作为一个稳健的框架,用于整合组织学和空间基因表达数据,为分析空间转录组数据和理解复杂疾病提供了一个可扩展的方法。
二、结果
作者开发了一种新型的GIST方法,即一种用于空间细胞剖析的深度学习赋能的基因表达与组织学整合方法。
GIST利用组织病理学图像基础模型提取图像特征,并采用混合图变换器融合来自转录组学和组织图像的特征(图1)。
利用深度学习实现基因表达和组织学整合,以进行空间细胞分析的GIST框架
- 数据构建与特征提取:从大脑、结肠、乳腺、肺等多细胞组织的基因表达数据和组织学图像中提取特征。基因表达数据以“基因-细胞”矩阵呈现,细胞还有对应的坐标矩阵;组织学图像则切割成图像块来处理。
- 特征融合:使用混合图Transformer模型,将转录组数据(基因表达)和图像数据的特征进行提取与融合。通过构建细胞与其相邻细胞的关系图,结合基因表达和图像特征向量,分别得到不同的特征表示(如 Z g , i Z_{g,i} Zg,i、 Z h , i Z_{h,i} Zh,i、 Z M , i Z_{M,i} ZM,i等),再进一步转换为新的特征表示( L M , i L_{M,i} LM,i、 L h , i L_{h,i} Lh,i、 L g , i L_{g,i} Lg,i)。
- 下游分析:对融合后的增强数据集,应用下游分析方法,包括识别空间区域、基因可视化(如用UMAP降维展示细胞分布,用小提琴图展示基因表达情况 ),从而实现对组织空间结构和基因表达模式的分析 。
两种增强图像特征提取的方法
- 对比学习增强的图像特征提取(B部分):输入图像 X X X生成不同变换版本 X 1 X_1 X1、 X 2 X_2 X2,经模型得到特征向量 Z 1 Z_1 Z1、 Z 2 Z_2 Z2 ,通过指数移动平均(EMA)更新特征。对比学习中,拉近正样本特征,推远负样本特征,特征存储在记忆库(Memory bank)中,计算相似度并划分,以此增强特征提取。
- 知识蒸馏增强的图像特征提取(C部分):对原始图像块(Original patch),“教师”(Teacher)模型和“学生”(Student)模型分别处理。“教师”模型对完整图像和随机掩码图像提取聚合特征(Agg. feature),“学生”模型处理原始和掩码图像,通过重建损失(Reconstruction loss)和对齐损失(Alignment loss)优化,使“学生”模型学习“教师”模型特征提取能力,从而提升图像特征提取效果。
为了证明GIST的泛化能力,作者将其应用于多种组织切片,包括肺、人类乳腺癌和结直肠组织,在空间领域识别和差异基因表达分析方面取得了显著成果。
作者的GIST框架包含三个主要组成部分:
- (a)从转录组数据(基因表达)和组织学图像中提取特征
- (b)用于融合多模态特征的混合图变换器模型
- (c)通过去噪基因表达数据进行空间领域识别的下游方法(图1A)
在数据预处理阶段,作者从空间转录组数据中获得基因表达谱和细胞空间位置信息,并选择包含细胞形态的组织学图像作为GIST的多模态输入。
在特征提取器和混合图变换器模型阶段,作者首先使用细胞的空间位置信息在大组织学图像中识别细胞位置,然后相应地使用基础模型从这些较小的图像块中提取图像特征。这种方法增强了学习表征的区分能力(图1B和C)。
提取的图像特征和从基因表达数据处理的转录组特征随后输入到混合图变换器模型中,以获得最终的增强表征。在下游分析阶段,作者分析了GIST生成的增强数据集中的转录组变化,促进了各种形式的下游任务。
三、数据来源
作者使用来自三个不同解剖位置的空间转录组数据验证了GIST方法,包括:
- 通过NanoString CosMx SMI[43]获得的甲醛固定石蜡包埋(FFPE)非小细胞肺癌(NSCLC)组织样本、FFPE人类乳腺组织
- 通过10x Genomics获得的BioIVT Asterand的新鲜冷冻侵袭性导管癌乳腺组织
- 通过10x Genomics获得的Discovery Life Sciences的FFPE人类结直肠癌组织
NanoString FFPE NSCLC数据集包含8个NSCLC组织样本,每个样本关联20至45张高分辨率图像。
标记为肺5-1、5-2和5-3的样本来自同一患者,肺9-1和9-2也来自同一患者。
其余样本来自不同患者,为数据集多样性做出了贡献。
FFPE组织中包含多种细胞群体,识别出18种不同的细胞类型,进一步分为8种主要细胞类型:
- 内皮细胞
- 上皮细胞
- 成纤维细胞
- 淋巴细胞
- 肥大细胞
- 髓系细胞
- 中性粒细胞
- 肿瘤细胞
关于人类乳腺癌数据集,作者使用了来自人类乳腺癌标本的2个空间基因表达数据集,每个数据集使用不同版本的Space Ranger处理:版本1.0和版本1.3。
使用Space Ranger版本1.0处理的数据集包含新鲜冷冻的乳腺组织侵袭性导管癌样本。
使用Space Ranger版本1.3处理的数据集来自FFPE人类乳腺组织标本。
对于人类结直肠癌,空间基因表达数据集使用Space Ranger版本2.0.1准备。
对苏木精和伊红(H&E)图像的检查显示结直肠癌表现出结缔组织的增殖反应。
四、GIST在肺癌单细胞空间景观中解析细胞类型
为了定量评估肺癌中细胞类型识别,作者将GIST应用于8个FFPE NSCLC标本的CosMx SMI数据集。
作者使用调整兰德指数(ARI)作为评估指标,将GIST的聚类准确性与8种最先进的空间聚类方法进行了基准测试。与其他方法相比,GIST显示出显著更好的ARI指数(图S1A和表S2)。
GIST与UNI结合达到了平均ARI 0.61,超过了最先进模型CellCharter(ARI = 0.50)的性能,其次是SiGra(ARI = 0.47)、stlearn(ARI = 0.42)、Seurat(ARI = 0.33)、Scanpy(ARI = 0.31)、BayesSpace(ARI = 0.27)、spaGCN(ARI = 0.25)和STAGATE(ARI = 0.22)。
所有FFPE NSCLC样本的ARI分布在使用GIST后显著改善。值得注意的是,GIST处理异常数据点的能力突显了其在解决异常数据点方面的有效性。
GIST还增强了CosMx SMI数据集的空间领域检测和聚类结果。
例如,在FFPE NSCLC切片肺13中,GIST与UNI结合在所有测试方法中预测空间领域的聚类准确性最高(图2A,ARI = 0.62)。
FFPE肺13样本包含77,043个细胞,涵盖960个基因,组织成20个视野(FOVs)。其他样本的结果在补充材料中提供(图S5和S6)。
在FOV级别的空间聚类结果显示GIST的预测与真实情况相符(图2B)。
在FOV1和FOV2,以肿瘤浓度升高为特征,GIST准确地辨别了这些焦点区域,并有效地划定了与多种细胞成分混合的相邻区域。
无论是遇到与淋巴细胞(FOV3)或髓系细胞(FOV4)相邻的肿瘤,GIST都准确地分类了这些组成,进一步证明了其在空间领域分析中的有效性。
相比之下,Cellcharter将髓系细胞误识别为肥大细胞和成纤维细胞。虽然Cellcharter在以肿瘤为主的FOVs(FOV2)中表现尚可,但在多细胞基础的FOVs(FOV3和FOV4)中的准确性下降,表明其在区分涉及多种细胞类型融合的复杂生物学场景方面的能力有限。
SiGra几乎在所有FOVs中将髓系细胞误识别为中性粒细胞。相比之下,GIST在这两种情况下都表现出色,强调了其在辨别细胞类型方面的广泛实用性。
五、GIST方法增强NanoString CosMx SMI肺癌基因表达数据的分析
GIST方法通过提高数据质量和分辨率,在下游分析中增强了临床相关基因标记的检测和特征描述。
作者应用统一流形逼近与投影(UMAP)技术降低原始数据集的维度,以便根据原始SCST数据集和GIST增强数据集中的特征相似性可视化细胞类型的聚类(图2 C)。
GIST增强的数据集在降维空间中显示出更明显的分离。值得注意的是,增强数据集促进了肿瘤分割,并改进了原始数据集中先前合并的细胞类型的区分,如成纤维细胞和内皮细胞。
前期和临床研究已将ERBB2(也称为HER2)确定为非小细胞肺癌(NSCLC)[44]中的可靶向驱动突变。
作者在图2 D中可视化了肿瘤特异性基因ERBB2的表达,并发现其在GIST数据集中的表达显著增强(t检验,P = 5.3 × 10−7)。
GIST方法使得在肿瘤区域更准确地检测ERBB2,有助于评估该突变的功能后果。比较原始数据集与GIST增强数据集中的细胞类型特异性基因表达,GIST放大了某些兴趣基因的可见性,同时保持了原始数据集的一般表达趋势(图2 E)。
例如,KRAS是NSCLC中频繁突变的癌基因,与接受不同治疗患者的临床结果预测相关[45]。
此外,ERBB2代表NSCLC患者中的治疗靶点突变,ERBB2定向疗法在管理转移性ERBB2突变NSCLC患者的疾病进展方面可能有效[46]。
为了阐明这些基因在肺癌组织中的表达谱,作者可视化了KRAS和ERBB2的表达模式,发现在肿瘤区域表达较高。这些基因在原始数据中无法被识别,证明了GIST方法在提高肺癌组织基因表达分析方面的能力。
六、GIST方法在人类乳腺癌中有效识别额外的预后标记基因
GIST方法在BioIVT Asterand采样的人类乳腺癌组织上进行了进一步评估。
第一个甲醛固定石蜡包埋(FFPE)的人类乳腺癌组织(Space Ranger 1.3.0)包含2,518个细胞和17,943个基因,分为四个注释类别:
- 纤维组织增生改变
- 淋巴细胞
- 坏死和出血
- 肿瘤
第二个人类乳腺癌(Space Ranger 1.0.0)由新鲜冷冻的侵袭性导管癌乳腺组织构成,包含3,813个细胞和33,538个基因数据点,分为三个类别:
- 纤维组织增生改变
- 淋巴细胞
- 肿瘤
人类乳腺癌的空间区域(Space Ranger 1.3.0)与真实情况进行了对比描绘(图3 A)。
GIST预测的空间区域在准确性上优于CellCharter和PROST等基线模型,尤其是在肿瘤区域。作者进一步使用原始和增强数据集进行了比较分析(图3 B)。
在原始数据集中,与肿瘤类型相关的细胞与指示坏死和出血的细胞聚类在一起。相比之下,GIST增强的数据更清晰地分离了肿瘤细胞和其他类型的细胞。
作者的特征提取过程显著提高了增强效果,使得细胞亚群的分离和识别更加良好。
在人类乳腺癌中,ERBB2的过表达与不良预后强烈相关[47]。
因此,作者可视化了原始和增强数据集中ERBB2的表达(图3 C)。
在原始数据集中,ERBB2的表达模式显得杂乱,并且在不同组织之间存在显著差异。
经过GIST增强后,ERBB2高表达和低表达区域更加明显,不同表达水平的分离显著优于之前(t检验,P=0.00084)。
作者进一步使用小提琴图展示了GIST增强的基因表达结果(图3 D)。
图3 E显示了特定基因ESR1[48]在增强前后的表达变化。
原始数据中ESR1的表达相对较低,难以识别。然而,GIST增强了ESR1的识别,这对于制定激素治疗策略和预测乳腺癌患者的治疗反应至关重要。
GIST在特定细胞群体中识别出更多差异表达基因(DEGs),揭示了原始数据中未检测到的表达变异,为不同条件下基因表达提供了更深入的了解。
作者使用人类乳腺癌(Space Ranger 1.0.0)空间基因表达数据集评估了GIST的有效性。
图4 A展示了由真实情况、GIST结合CtransPath、CellCharter和PROST确定的空间区域。
总体而言,GIST预测的肿瘤区域更为准确。尽管这个特定数据集类别较少,导致ARI指数略低于其他数据集,但空间区域识别的整体准确性仍然很高。
同时,图4 B展示了GIST增强的肿瘤分割效果。
ESR1突变作为转移性激素受体阳性乳腺癌中新兴的临床生物标志物,可能有助于监测疾病进展并导致治疗抵抗[49]。GIST增强的ESR1基因表达(t检验,P=0.036)改善了肿瘤细胞的检测(图4 C)。
图4 D的小提琴图定量展示了GIST增强标记基因表达的影响。
对于每种细胞类型,GIST增强后DEGs的识别更为准确(图4 E)。
这些结果证明了GIST在减少噪声和提高乳腺癌数据集中基因表达模式方面的能力。
七、GIST方法在结直肠癌中提高了特定细胞类型特定基因的表达模式
作者使用来自Discovery Life Sciences通过10x Genomics获取的人类结直肠癌数据集进行了进一步评估。
结直肠癌样本的H&E图像通过切片、脱蜡、H&E染色和成像获得。H&E图像显示结直肠癌具有增生的结缔组织反应,以及大量肿瘤间质的浸润肿瘤区域。
该数据集包含9,080个细胞和18,085个基因数据点,分为5组:
- 纤维组织增生改变
- 肌层
- 肿瘤
- 肿瘤坏死
- 血管
图5 A展示了使用GIST、PROST和CellCharter对原始和预测空间域的可视化。GIST预测的肿瘤(绿色)和坏死(红色)区域与真实情况高度匹配。
在UMAP图(图5 B)中,GIST将原本分散的肿瘤细胞聚类在一起。
此外,肿瘤和坏死区域在空间上相互靠近。MKI67是微卫星不稳定阶段II/III高级别结直肠癌的潜在诊断和预后生物标志物[50]。
MKI67基因表达的增强可视化显示了显著(t检验,P=0.00013)更清晰的高MKI67表达区域,且具有更好的空间连续性,表明增强效果有效地捕捉了MKI67表达的空间模式。
同样,低MKI67表达区域在增强可视化中显得更加均匀(图5 C)。
额外的下游任务,通过小提琴图(图5 D)展示差异表达基因(DEGs)的检测(图5 E),表明GIST通过在整合染色图像之前有效去噪基因表达数据,改善了基因表达模式的解释。
八、讨论
空间转录组技术持续提供高分辨率的组织病理学图像。
尽管由于富含细胞形态学信息,组织学检查仍然是癌症诊断和疾病理解的黄金标准,但目前处理ST数据的方法并未充分利用这种形态学信息,大多仅将其用于定位或比较基本的细胞相似性。
相比之下,数字病理学领域迅速发展,基于深度学习的显微镜图像分析在计算机辅助诊断中显示出前景广阔的应用。
组织病理学图像基础模型的新近发展使得准确提取组织级别的细胞图像特征成为可能。
在本研究中,作者提出了GIST,一种新型方法,它利用预训练的自监督组织学图像基础模型提取特征,并采用混合图变换器高效融合这些图像特征与转录组特征。
在作者的实验设置中,作者使用了多个最先进的预训练组织学基础模型作为主干,包括CTransPath、Virchow2、Gigapath和UNI。所有模型均训练于数百万张诊断用H&E染色图像,并用于提取细胞形态学特征。
尽管它们在架构和预训练数据集上存在差异,这些主干模型有效地从处理后的图像块中捕获局部和全局细胞特征,以辅助下游的组织病理学诊断任务。
CTransPath采用对比学习,通过并行网络处理、对比学习和指数移动平均(EMA)生成和细化特征向量。相比之下,Virchow2、Gigapath和UNI使用自监督的学生-教师网络框架,学生网络在教师网络的指导下逐步学习提取有意义特征。这些互补的优势塑造了作者研究中两个基础模型家族的选择。
不同主干模型变体在框架中的性能如表S1所示,包括使用UNI的GIST、使用CTransPath的GIST、使用Virchow2的GIST和使用Gigapath的GIST处理SCST数据。
在这些模型中,使用UNI的GIST在肺癌数据集中表现出卓越的整体性能,在lung5-1、lung5-2和lung5-3数据集上均获得一致的0.64分。
相比之下,使用CTransPath的GIST在乳腺癌和结直肠癌数据集中表现优异,展示了其对这些数据类型的高度适应性。
总体而言,基于GIST框架的模型在空间转录组分析的准确性和可靠性方面取得了显著的改进。
在正文文本中,作者展示了使用UNI模型的GIST在肺癌数据集中的可视化和详细分析结果。
对于乳腺癌和结直肠癌数据集,使用CTransPath模型的GIST性能超过了基线模型,并展示了病理学信息方法在增强空间转录组分析中的优势。
GIST采用多模态策略融合组织学图像与空间转录组特征,有效地利用了两种模态的优势。通过将染色图像的局部和全局上下文与细胞级别的空间转录组数据相结合,GIST提高了区分细胞结构的精确度。
GIST的混合图变换器有效地解决了dropout事件这一挑战,即某些基因可能在活跃表达的情况下仍未被检测到。这种融合通过减轻dropout和去噪,增强了基因表达数据,使得即使在数据不完整的情况下也能进行更好的领域分割和生物标志物识别。
在空间细胞剖析(SCST)数据分析中,识别基因和空间领域是理解组织架构和疾病微环境的两个基本任务[51]。
本研究中,作者专注于评估GIST在这些两项任务中的泛化能力。尽管这些任务旨在学习不同的信息(领域识别侧重于跨图像分类细胞类型,而基因识别侧重于识别和分类特定基因),但两者都需要能够从复杂的生物医学图像中提取有意义洞察的模型。
在作者的实验中,作者可视化了GIST增强前后的空间领域检测和聚类结果,并进行了比较。作者发现GIST在描绘具有不同解剖轮廓的结构方面更为准确。
此外,作者通过在空间地图中可视化它们的增强表达,证明了GIST在识别差异表达标记基因方面的有效性。
除了GIST在肿瘤相关任务中的可用性,作者还探索了其在识别非癌组织结构中的应用。
作者对背外侧前额叶皮质(DLPFC)数据集的分析显示,GIST在大脑区域识别方面具有可接受的准确性(图S2至S4)。
然而,由于所有这些组织学图像基础模型主要是在大规模肿瘤组织病理学图像数据集上开发的,这些模型通常未能编码非癌表型,这阻碍了在人类大脑皮层中准确映射基因表达。
与其它领域相比,大脑相关数据集相对稀缺,因为获取大脑组织样本的挑战和数据集大小的限制。
除了GIST的优越性能和技术优势外,GIST在未来还有进一步改进的空间。
首先,当前的组织学基础模型在编码形态学特征时还不足以特定于单个细胞。进一步的改进,如更好的细胞分割,可以进行研究[52]。
作者的研究也没有明确探索在转录组学或基因组学中整合基础模型的潜力,这可能需要更多的计算资源进行预训练,但能从基因表达数据中提取更多生物学上有意义的功能[53]。
此外,鉴于评估范围的广泛性,作者的重点主要放在公开可用的癌症数据集上,对其他疾病在解剖病理学或正常组织结构中的考虑有限。未来的工作将旨在进一步评估模型对其他疾病,如解剖病理学中的神经障碍[20]的泛化能力。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!