利用深度学习模型HookNet-TLS揭示三级淋巴结构在实体瘤预后中的作用｜文献精读·24-08-14

小罗碎碎念

今天分享的这篇论文于2024年发表于《Commun Med (Lond)》，目前IF=5.4。

角色	作者名	单位名称（中文）
第一作者	Mart van Rijthoven	荷兰尼梅亨大学医学中心病理科
通讯作者1	Jeroen van der Laak	荷兰尼梅亨大学医学中心病理科
通讯作者2	Francesco Ciompi	苏黎世大学实验免疫学研究所（瑞士）
通讯作者3	Karina Silina	瑞士联邦理工学院药学研究所（苏黎世，瑞士）

这篇论文介绍了一种基于多分辨率深度学习模型的方法，用于自动和无偏见的肿瘤组织中三级淋巴结构（TLSs）的定量和生发中心（GCs）的识别。

研究背景：
- 问题：TLSs是在炎症性外周组织（包括癌症）中密集积累的淋巴细胞，与多种实体瘤患者的生存改善和对免疫治疗的反应相关。然而，TLSs的标准化表征方法的缺乏阻碍了不同患者、疾病和临床中心之间TLS密度的评估。
- 难点：TLSs的形态学特征复杂，且在常规的组织病理学染色（如H&E染色）中，TLSs的识别和定量具有主观性和不一致性。
- 相关工作：现有的TLS定量方法包括转录组分析、流式细胞术和基于组织学的评估，但这些方法各有局限，且缺乏标准化的TLS定义和检测方法。
方法：
- 介绍了一种名为HookNet-TLS的多分辨率深度学习模型，用于自动和无偏见的TLS定量和生发中心（GCs）的识别。该模型结合了高低分辨率图像的信息，类似于病理学家使用显微镜识别这些结构的过程。
- 使用来自癌症基因组图谱（TCGA）的1019张手动标注的肾透明细胞癌、肌肉浸润性膀胱癌和肺鳞状细胞癌切片数据集进行模型训练。
- HookNet-TLS模型通过滑动窗口方法生成全视野图像（WSI）的分割图，并通过轮廓查找提取检测对象。模型的训练使用了He初始化权重、批量归一化、ReLU激活函数、L2正则化和交叉熵损失。
实验：
- 评估了HookNet-TLS模型在三个肿瘤类型中的性能，并与手动标注和Faster R-CNN检测方法进行了比较。具体来说，使用F1评分评估模型性能，结果显示HookNet-TLS在检测TLSs和GCs方面显著优于Faster R-CNN。
- 在TCGA测试集和苏黎世大学医院（USZ）数据集上，HookNet-TLS的总体F1评分分别为0.86（LUSC）、0.93（BLCA）和0.72（KIRC），而Faster R-CNN的总体F1评分分别为0.75（LUSC）、0.68（BLCA）和0.50（KIRC）。
- 进一步分析表明，HookNet-TLS在检测TLSs时的假阳性主要来自KIRC中的T细胞聚集体，这些聚集体在H&E染色中与B细胞聚集体形态相似。
结果与分析：
- HookNet-TLS模型在多个癌症类型中实现了人类水平的性能，并展示了与视觉评估相似的预后关联。具体来说，HookNet-TLS预测的TLS密度与手动标注的TLS密度在LUSC和KIRC中具有相似的预后相关性。
- 在LUSC中，HookNet-TLS预测的TLS密度与较长的总生存期相关（HR=0.984，p=0.046），而在KIRC中，TLS密度与较差的生存期相关（HR=1.048，p=0.2596）。
- 通过多参数免疫荧光分析进一步验证了HookNet-TLS的预测结果，发现TLSs和GCs的特征编码在不同器官中具有相似性，支持了跨癌种的潜在应用。
总体结论：
- HookNet-TLS模型有望作为常规H&E数字病理切片中TLS客观定量的工具。该模型的开发和验证展示了其在TLS研究中的潜力，并为未来的临床决策和研究提供了有力支持。
- 通过这篇论文，作者展示了HookNet-TLS模型在TLS定量中的优越性能和预后相关性，强调了其在未来病理学工作流程中的潜在应用价值。

一、引言

次级淋巴样结构（TLSs）是在慢性炎症反应中在外周组织发育的异位淋巴器官，其结构与功能类似于次级淋巴器官的滤泡，如淋巴结，包括抗原特异性淋巴细胞的启动。

TLSs在多种实体肿瘤中的发展已被报道，与改善生存率和免疫治疗反应相关，尤其是当TLSs成熟，即含有生发中心（GC）时。因此，TLSs被认为是抗肿瘤免疫的现场中心，其定量有望成为预测患者风险和治疗分层的全新生物标志物。

目前，用于量化肿瘤微环境中TLS存在的主要方法有转录组分析、流式细胞术和基于组织学的评估。

TLS相关转录本的定量可用作无法获取组织学样本患者TLS定量的替代方法。然而，不同器官TLS相关基因特征存在显著差异。此外，常用的TLS基因并非特异性，例如，CXCL13是TLS发育中的关键趋化因子，但也由TLS外的肿瘤浸润T细胞甚至肿瘤细胞本身表达。近期研究表明，肿瘤核心活检中TLS相关转录本与相应诊断切片中TLS密度之间的相关性较差，提示RNA定量可能提供TLS发育的部分而非全部信息。

流式细胞术允许在肿瘤组织消化物中量化显著富集于TLS中的细胞类型，如T滤泡辅助细胞以及滤泡和生发中心B细胞。然而，这些细胞类型在不同肿瘤中反映TLS密度和成熟阶段的效果尚不清楚。此外，肿瘤单细胞悬液的广泛可用性限制了流式细胞术在TLS检测中的应用范围。

组织病理学诊断，主要基于苏木精-伊红（H&E）染色，在临床实践中常规使用。

H&E染色中的形态分析可以直接量化TLSs，作为与无组织炎症形成对比的淋巴细胞密集聚集物，并可通过中心增殖母细胞的独特形态检测GCs。研究表明，不同外周器官在支持TLS发育的能力上存在显著差异。

然而，由于H&E染色中TLS定义的广泛差异以及基于免疫组化检测TLS相关细胞类型（如B细胞、树突细胞、高内皮静脉或T细胞）的方法不同，TLS发展的跨研究客观可靠比较受到阻碍。

近年来，高通量扫描技术的可用性使得全切片图像（WSIs）的数字化和数字病理学的兴起，进而推动了人工智能（AI）方法在WSI组织分析中的发展。深度学习已成功应用于医学成像的多个领域，病理学诊断任务，以及在免疫肿瘤学中量化和发展生物标志物。

由于免疫浸润的特定形态，可以通过深度学习进行检测。

作者最近开发的AI模型HookNet在H&E染色的肺癌WSIs中成功分割了TLSs和GCs以及其他组织结构。HookNet的独特之处在于其整合了多分辨率图像以产生分割输出。通过结合高分辨率细节和低分辨率上下文信息，模拟病理学家检查组织切片的方式，这种方法在有限的癌症WSIs上测试的单（高）分辨率分割表现更佳。

本研究在先前工作的基础上，开发了一种基于深度学习的模型，用于标准化、客观和自动量化不同H&E染色组织和样本来源中的TLSs，命名为HookNet-TLS。作者通过利用大型训练数据集以及来自癌症基因组图谱（TCGA）的独立验证和测试集，证明了HookNet-TLS的稳健性和泛化能力。

作为额外的验证，作者旨在通过使用三种具有已知TLS预后关联差异的肿瘤队列（肺鳞状细胞癌、透明细胞肾细胞癌和肌侵袭性膀胱癌）来评估HookNet-TLS预测的预后相关性。作者基于H&E染色的视觉解释生成了TLSs和GCs的手动注释，并通过苏黎世大学医院（USZ）的独立数据集进行匹配的IHC染色基准测试。

作者测量了观察者间变异性，以调查基于人类的TLS检测中的主观性，并在这种背景下评估了模型的性能。此外，作者将HookNet-TLS与一种名为Faster R-CNN的先进AI对象检测方法进行了比较，以验证多分辨率分割方法与专门用于计算机视觉应用中对象检测的方法的优势。

最后，作者研究了HookNet-TLS预测的预后相关性，其结果与手动TLS定量密切相关。作者将代码和算法作为网络工具公开，以促进模型在潜在泛癌症应用及更广泛领域的进一步发展。

二、方法

2-1：生成真实标签注释

TCGA数据

作者从TCGA下载了三个肿瘤队列的1481张诊断WSIs及其相应的临床数据，包括480例LUSC、405例BLCA和514例KIRC患者。所有分析的H&E图像均以40×放大率扫描，格式为Aperio svs。

进行了初步的手动质量控制，并应用了以下图像排除标准：组织或图像质量差（例如，存在大气泡、过多笔迹或失焦区域）以及缺乏相邻正常组织，因为TLSs主要在这些实体肿瘤的周边发育。

因此，1019张切片通过了质量控制（BLCA n=345，KIRC n=299，LUSC n=375），并使用QuPath软件（v0.3.2）28详尽地（即整张切片上的所有对象）手动注释，勾画出淋巴结、TLSs和GCs的边界，并分别划分为三个独立的模型训练（n=188）、验证（n=69）和测试（n=767）数据集（图1）。

Fig. 1展示了HookNet-TLS模型的数据和流程。

a. 数据集的划分：

从癌症基因组图谱(TCGA)获取了肌肉浸润性膀胱癌(BLCA)、透明细胞肾癌(KIRC)和肺鳞状细胞癌(LUSC)的诊断幻灯片。
排除了缺乏邻近正常组织或扫描质量较差的幻灯片。
剩余的幻灯片被分为三个独立的数据集，分别用于模型的训练、验证和测试。

b. 每类数据集的注释数量：

所有选定的图像都详尽地注释了三级淋巴结构(TLSs)、生发中心(GCs)和淋巴结。
对包括未组织化的浸润(炎症)、基质、肿瘤和各种实质区域在内的各种其他组织进行了稀疏注释(Rest)。

c. HookNet-TLS模型架构的示意图：

展示了使用训练数据集进行基于多分辨率图像块的训练。
包括使用验证数据集进行的后处理步骤，如全幻灯片图像推断和对象检测优化（详见方法部分）。
模型架构整合了多分辨率的细节和上下文信息，模仿病理学家使用显微镜检查组织切片的过程。

整体来看，Fig. 1提供了对HookNet-TLS模型如何被训练和验证的视觉概述，以及它是如何通过多分辨率分析来识别和量化TLSs和GCs的。

这使得能够客观地分析在训练过程中未暴露的测试案例。数据集的划分基于患者ID和每张图像的注释TLS/GC计数。每个数据集的切片数量选择如此，是为了在获得全面训练注释集的同时，保持大量队列独立于训练过程，以测试预测区域的预后相关性。最后，小型的验证集的目的是调整模型的后期处理参数，同时仍保持其独立于训练过程。

由于淋巴结区域与TLS高度相似，因此从所有下游过程中排除。为确保不同肿瘤类型之间训练注释的平衡分布，作者必须将大多数TLS高密度的KIRC图像纳入训练集。

对于炎症（无组织的免疫细胞浸润）、肿瘤和其他组织（包括不同器官的正常实质）生成了非详尽的（即整张切片上只有部分对象）注释，并统一标记为Rest。

不同的肿瘤类型和切片集由总共三位接受TLS组织病理学训练的不同注释者进行注释，以模拟不同临床中心主观TLS量化引起的实际生活变异性（补充图1）。

USZ数据

作者从苏黎世大学医院（USZ队列）病理学和分子病理学系病理档案中选择了15个肿瘤样本（7 KIRC，8 LUSC），这些样本具有高TLS密度。

对于每个USZ样本，使用FFPE肿瘤块准备三张2-μm厚的近似连续切片。这些切片进行CD20（克隆L26，Leica，CD20-L26-LCE）和CD23（克隆SP3 Abcam，ab16702）免疫染色或H&E染色。所有染色均使用Discovery Ultra和BenchMark Ultra自动化系统（Ventana Medical Systems）进行，按照USZ的诊断染色标准操作程序。使用NanoZoomer 2.0-HT C9600（Hamamatsu）扫描整张切片。

在此数据集中，作者在两个独立会话中进行了两套注释。

首先，按照与TCGA图像相同的程序，生成盲注（即不支持IHC）的H&E切片手动注释。
其次，使用IHC染色图像作为参考标准，以IHC指导方式重新注释相同的H&E切片。

因此，在H&E中生成了TLSs和GCs的客观真实标签，基于CD20+ B细胞密集聚集和CD23+滤泡树突细胞网络在B细胞簇内的存在。所有注释均由一位受过训练的注释者使用QuPath软件（v0.3.2）28进行（补充图1）。

作者使用IHC指导的注释来评估在H&E图像中手动生成的盲注TLS和GC注释的整体准确性。性能计算使用F1分数（详见模型评估部分）。

2-2：多分辨率深度学习用于表征TLSs和GCs

模型开发

HookNet模型22旨在利用上下文信息和高分辨率细节，准确识别在低倍率下可能可见的结构，以及在高倍率下捕捉细微差异。该模型由两个编码器-解码器U-Net23分支组成，称为上下文分支和目标分支。

在此，作者优化了原始模型，创建了HookNet-TLS，通过减少神经网络每层的滤波器数量，将参数数量从大约5000万减少到大约2500万，从而提高了效率、速度并降低了计算成本。这种减少并未对性能产生负面影响。

与原始HookNet模型22的方法不同，作者的实现包含了三个主要扩展：

(1)生成全切片图像(WSI)分割图；
(2)生成置信度图；
(3)从这些图中提取检测到的对象。

具体来说，作者采用滑动窗口方法，提取覆盖整个WSI的瓦片并进行分割预测。随后，这些瓦片被组装起来，构建完整的WSI分割图。

对于TLS和GC检测对象的提取，作者结合使用wholeslidedata python包29和通过opencv-python python包进行轮廓查找。通过这些扩展，作者有效地将原始的HookNet分割模型转换为检测模型。

训练HookNet-TLS和Faster-RCNN

作者使用了选定的TCGA训练数据集中的所有注释来训练HookNet-TLS，以预测分割目标类别：TLS、GC和Rest。

作者遵循了22中描述的训练程序，该程序对于TLS分割表现最佳，并使用0.5 μm/px和2.0 μm/px间距提取的同心圆瓦片训练HookNet-TLS。这两种瓦片的尺寸均为284x284x3像素。

模型训练使用了’He normal’30初始化权重、批量归一化、RELU激活函数、L2正则化和交叉熵损失。WSI中的瓦片采样使用了基于像素计数的策略，如22中所做，对所有类别进行采样，以确保模型对每个类别有足够的暴露。

根据作者之前的工作，作者发现只使用高分辨率分支的一个损失是TLS和GC分割的最佳配置，作者据此训练模型。关于HookNet的完整描述和进一步的训练细节，请参考原始HookNet模型22。

作者使用Detectron2框架31训练了一个以ResNet50为编码器的Faster R-CNN。

批处理大小为12，并使用wholeslidedata包29实现了自定义的Detectron2数据加载器。这个数据加载器允许从WSIs中高效采样瓦片，并使作者能够应用训练HookNet时使用的相同数据增强。

瓦片以2.0 μm/px的间距提取，尺寸为256x256x3像素。此外，作者使用了Detectron2的默认设置来训练模型，进行了20,000次迭代，使模型收敛。

后处理

在对象检测框架中，阈值化概率分数是标准做法。

HookNet-TLS为WSI的每个像素生成一个预测概率（置信度）值，而不是单个对象的单一概率值。

通过评估一个区域（该区域包含等于或大于指定阈值的概率值像素）来接受候选对象。为了找到检测真正阳性预测对象的最佳阈值，作者在概率和尺寸维度上使用F1分数作为优化指标，仅使用验证数据集进行了二维搜索（图1c）。

为了在搜索中使用整数值，作者将概率分数从浮点数范围0-1映射到整数范围0-255，并考虑了平方面积直到255^2。

Faster-RCNN为每个对象生成单个概率。作者通过优化验证集上的F1分数来调整对象阈值。标准Faster-RCNN使用非最大值抑制来减少重叠检测，并通过滑动窗口方法产生的重叠对象被合并。

最后，由于GC对象是独立于TLS对象预测的，作者消除了至少不与50% TLS重叠的GC预测对象。

2-3：模型评估

为了评估模型，作者使用了F1分数：

F1 分数 = 2 * (精确度 * 召回率) / (精确度 + 召回率)
精确度 = TP / (TP + FP)
召回率 = TP / (TP + FN)

其中，TP表示真正阳性（true positive），FP表示假阳性（false positive），FN表示假阴性（false negative）。
作者使用F1分数对TCGA和USZ的独立测试数据集中的每张幻灯片进行了评估。如果真实标签注释与预测至少有50%的重叠，则将其视为真正阳性。未覆盖真实标签的预测被计为假阴性，而未覆盖真实标签的预测被计为假阳性。

作者将F1分数的比较在成对的Mann-Whitney U检验中进行。使用Spearman相关分析来研究整体F1分数与训练注释数量之间的关系。

2-4：提取和分析编码特征

从手动注释以及预测的每个区域中提取了目标分支最低层的补丁中的编码特征。

为了减少特征空间，作者从一个10x10x440的特征图中进行了最大池化，得到了440个特征，其中包含85个相同的特征值。因此，总共355个独特的特征编码了TLS和GC区域之间的差异。

作者使用UMAP在二维空间中探索TLS和GC特征之间的差异，并使用Rphenograph算法32基于355个特征对区域进行无监督聚类。

作者使用k=50作为最近邻的数量，得到了14个不同的聚类，其中一个聚类7在所有肿瘤类型中GC类相对于TLS类显著富集。与GC在聚类7中聚类的TLS注释通过图像的视觉检查进行了回顾性验证，以包含GC。

2-5：硬负挖掘

作者的图像中TLS和GC注释的详尽性质使作者能够自动识别并分配初始训练轮次的假阳性预测作为Rest类，以增加后续训练迭代中的训练数据集，这种方法称为硬负挖掘。

作者尝试了两次额外的训练迭代，包括以下步骤：

使用TCGA数据上的注释者制作的初始训练集训练模型。
将训练好的模型应用于训练集中的完整幻灯片。
使用为TCGA数据集制作的参考标准评估模型，并识别TLS和GC注释的假阳性。
将假阳性扩展为Rest注释，并使用随机初始化的权重再次训练模型。
评估重新训练的模型的性能。

2-6：定量组织学

从使用QuPath软件生成的手动注释和HookNet-TLS对象的分割图中提取了TLS和GC的数量和面积值。

使用ImageJ测量了每张幻灯片的总组织面积，通过为所有幻灯片设置一个共同的像素强度阈值。

值得注意的是，使用的强度阈值排除了主要围绕BLCA样本的较大脂肪组织区域。计算了每张幻灯片的平均TLS大小和TLS密度（每总组织面积的计数）。以下密度参数获得：总TLS密度和GC密度。

2-7：多参数免疫荧光

作者手动处理了USZ KIRC集合中的近似连续FFPE幻灯片进行多参数免疫荧光。幻灯片在55°C加热2小时，然后根据制造商的协议放入压力锅中，在Trilogy SolutionTM中加热15分钟。幻灯片冷却15分钟后用流动的自来水冲洗。幻灯片用3% H2O2处理，用0.1% Triton X-100/PBS洗涤，并用2% BSA/0.1% Triton X100/PBS封闭。

抗体在1% BSA/0.1% Triton X100/PBS中稀释。样品与一抗在4°C过夜或室温3小时孵育，洗涤3次，与二抗室温孵育1小时。

用于检测的二抗用辣根过氧化物酶标记（所有抗体均与Jackson ImmunoResearch的交叉反应减少），并结合7plex Opal系统（Akoya）按照制造商的协议使用。幻灯片用DAPI（0.5 μg/ml）染色（Life Technologies）并用ProlongDiamond介质（Life Technologies）固定。

作者使用了以下抗体：CD3（克隆SP7，Thermo Scientific，RM-9107）、CD21（克隆2G9，Leica，CD21-2G9-L-CE）、CD23（克隆SP3，Abcam，ab16702）、CD20（克隆L26，Leica，CD20-L26-L-CE）、DC-LAMP（克隆1010E1.01，Dendritics，DDX0191）。

整个幻灯片用多光谱成像系统Vectra 3.0（PerkinElmer）进行成像。在每个幻灯片中，作者选择了20x高倍视野来多光谱成像所有密集的淋巴细胞聚集物，并使用Inform软件v2.6（Akoya）处理图像。

2-8：生存分析

与组织学分析中的患者相关的临床数据从GDC数据门户（表1）中获得。

表1提供了对分析的癌症基因组图谱(TCGA)队列患者的一些基本特征的描述。

患者人数(N): 表中列出了每种癌症类型的患者总数。
特征分布(n/%/范围):
- Stage(阶段): 患者根据癌症的临床阶段被分为I+II期和III+IV期两个大类。
- Gender(性别): 患者按性别被分为女性和男性。
- Age(年龄): 列出了患者年龄的中位数和四分位数范围。
- Time to death(生存时间): 从手术到最后一次随访或死亡的年数。
风险比(HR): 每种特征的风险比，用于评估该特征与总体生存时间的相关性。
95% CI: 风险比的95%置信区间，提供了统计评估的可靠性范围。
p-value: 每种特征的p值，用于测试该特征与总体生存时间相关性的统计显著性。
特定特征的分析:
- 手动TLS: 手动注释的TLS数量与总体生存的相关性。
- 手动GC: 手动注释的GC数量与总体生存的相关性。
- 预测TLS: HookNet-TLS模型预测的TLS数量与总体生存的相关性。
- 预测GC: HookNet-TLS模型预测的GC数量与总体生存的相关性。
癌症类型: 分别对KIRC、LUSC和BLCA三种癌症类型进行了分析。

表1的数据分析结果可以帮助作者了解不同临床和组织学特征对患者总体生存的影响，以及这些特征如何与TLS和GC的存在相关联。例如，对于KIRC，阶段(III+IV)的风险比为3.62，p值为0.001，表明晚期癌症与更高的死亡风险显著相关。

而对于LUSC，手动TLS的p值为0.25，表明手动注释的TLS数量与总体生存的相关性不显著。预测TLS的p值为0.052，接近显著性阈值，表明模型预测的TLS数量可能与LUSC患者的总体生存有相关性。这些数据为进一步研究TLS和GC作为潜在的预后生物标志物提供了基础。

手术后生存时间少于两周的患者被排除在生存分析之外。

总体生存期被评估为从手术到最后一次随访或死亡的年数。生存期超过十年的患者被截断。所有患者（包括训练、验证和测试集）都被用于定义每个肿瘤类型的TLS密度中位数阈值。当一个患者有多个扫描可用时，选择最高值作为该患者的值。

如果患者的TLS密度值高于肿瘤类型特定的中位数，则定义为TLS-高。总体生存期在临床和病理参数（年龄、性别、阶段）以及组织学参数（GC或TLS密度）的背景下，通过单变量和多变量Cox回归（表2）进行分析（阶段和性别被分类，所有其他参数都被用作连续变量）、Kaplan-Meier曲线和Log-rank检验。分析使用R版本4.1.2的survival包版本3.4-0。

表2展示了在分析的癌症基因组图谱(TCGA)患者队列中，与总体生存相关的临床和组织学参数的预后独立性。

参数(Parameters):
- 列出了与总体生存相关的临床和组织学参数，包括癌症的阶段(Stage)、年龄(Age)、性别(Gender)、手动注释的TLS(manual TLS)和GC(manual GC)，以及由HookNet-TLS模型预测的TLS(predicted TLS)和GC(predicted GC)。
风险比(HR):
- 显示了每个参数的风险比，即该参数每增加一个单位，患者死亡风险的倍数变化。
95%置信区间(95% CI):
- 为每个参数的风险比提供了95%的置信区间，这表示了统计估计的可靠性。
p值(p-value):
- 表示每个参数与总体生存时间相关性的统计显著性。p值小于0.05通常被认为是统计显著的。
癌症类型(Cancer Type):
- 分别对肺鳞状细胞癌(LUSC)、透明细胞肾癌(KIRC)和肌肉浸润性膀胱癌(BLCA)的患者队列进行了多变量Cox回归分析。
分析结果:
- 对于LUSC，手动TLS的预后独立性不显著(p=0.1984)，而预测TLS显示出显著的预后独立性(p=0.0457)。
- 在KIRC中，无论是手动TLS还是预测TLS，均未显示出预后独立性。然而，癌症阶段(III+IV)和年龄是显著的预后因素(p<0.001和p=0.0135)。
- BLCA的数据在表2中未提供，但通常分析方法会与LUSC和KIRC相同。
临床意义:
- 表2的数据对于理解不同参数对癌症预后的影响至关重要。例如，如果预测TLS在LUSC中显示出预后独立性，这表明通过HookNet-TLS模型识别的TLS可能为LUSC患者的预后提供额外的有用信息。
统计方法:
- 表2中的数据是通过多变量Cox回归分析得出的，这是一种常用的生存数据分析方法，可以同时考虑多个参数的影响。

表2提供了一个综合的视角，帮助研究者和临床医生了解不同参数对癌症预后的影响，以及它们是否可以作为独立的预后因素。这对于癌症治疗决策和患者管理具有重要意义。

三、结果

3-1：模型开发

在这项研究中，作者使用了来自三个TCGA队列的诊断H&E图像，即LUSC、BLCA和KIRC，在这些图像上作者手动注释了TLSs、GCs和其他组织（通常称为Rest）（图1a、b）。

作者使用这些注释的子集来训练、验证和测试HookNet-TLS模型。该模型是HookNet模型的改进版本，具有增强的计算性能和额外的后处理步骤。这些步骤包括生成全切片分割图（WSI推理）、将分割掩膜转换为对象，以及优化对象检测阈值（图1c）。

使用免疫组织化学（IHC）评估H&E基础的手动注释质量。

为了评估H&E基础的手动注释质量，作者使用IHC作为参考标准。一位经过训练的注释者首先注释了一个独立集的LUSC和KIRC H&E图像，作者将其定义为盲注注释。接着，同一H&E图像被重新注释，使得连续切片免疫染色CD20和CD23标记可供注释者使用，作者将其定义为IHC指导注释。

这有助于将TLS定义为密集的CD20+ B细胞簇和中心位置的CD23+滤泡树突细胞网络作为GC的必要组成部分（图2a）。

IHC指导的数据集包括LUSC中的639个TLS和89个GC注释，以及KIRC幻灯片中的217个TLS和57个GC注释。

为了定量评估盲注注释过程的性能，作者计算了盲注与IHC指导对象的精确度（阳性预测值）和召回率（敏感性）的平均值作为F1分数（详细信息请参见方法部分）。

作者发现盲注和IHC指导的TLS注释之间有较高的重叠（精确度=0.94；召回率=0.85；整体F1分数=0.89），这提供了H&E图像中手动TLS检测高准确性的证据（图2b）。

作者发现盲注TLS注释中主要遗漏了小TLS（假阴性）（图2c），但在两种肿瘤类型中，这些占IHC定义TLSs的很小一部分（平均16%）（图2d）。

作者注意到在KIRC中，盲注TLS注释中相当一部分被归类为假阳性（图2d），主要是由多个密集的淋巴细胞聚集物组成，这些聚集物对CD20染色呈阴性（图2e，黑色箭头）。

为了探索这种不准确性的原因，作者使用了多参数免疫荧光（mIF）（请参见方法部分以获取更多详细信息），并发现KIRC的肿瘤微环境中含有频繁的T细胞聚集，这些聚集在H&E染色中形态上与B细胞聚集非常相似。然而，由于缺乏B细胞组分，这些不被认为是真正的TLSs。基于这些发现，作者假设TCGA KIRC数据集中的注释聚集物中有一部分是T细胞聚集，并在HookNet-TLS模型中作为TLS进行了训练。

关于GC，作者发现盲注与IHC指导的GC注释之间的准确性低于TLS（精确度=0.95；召回率=0.40；整体F1分数=0.57）（图2b）。作者发现盲注注释中的主要不准确性是假阴性而不是假阳性检测（图2d）。

图像分析显示，在多个缺乏明显增殖母细胞中心区域的TLS中发现了CD23+细胞网络（图2a、d、白色箭头），这是H&E图像中定义GC的经典形态学参数（图2a、灰色箭头）。缺乏典型的GC形态学（因此在盲注注释中进行假阴性评估）与较小的GC大小相关（图2c）。

这些数据表明，TLS中的GC具有多种形态，这使得在H&E图像中难以检测。因此，作者假设TCGA队列中的GC训练集对于这种多样性代表性不足。

3-2：基准测试HookNet-TLS检测性能

作者将HookNet-TLS的输出与Faster-RCNN27进行了比较，Faster-RCNN是一种在多种计算机视觉任务中成功应用的高级方法。

与HookNet-TLS的分割方法不同，Faster-RCNN预测包含感兴趣对象（如TLS）的像素集合的边界框，这通常被称为基于检测的方法。

为了评估Faster-RCNN和HookNet-TLS的性能，作者在每个单独的幻灯片中计算了：

（1）模型预测与USZ集中的IHC指导注释
（2）模型预测与TCGA独立测试集中的手动注释的F1分数。

作者发现，在两个样本集中，HookNet-TLS在检测TLSs和GCs方面明显优于Faster-RCNN（图3a、b）。

接下来，作者计算了每个肿瘤类型中所有地面真实注释的整体F1分数。这个分数不考虑真正的负性幻灯片，因为没有方法在注释级别量化TLS预测的缺失，但这个指标有助于评估TLS或GC检测的一般情况。整体F1分数的比较显示，LUSC样本中TLS的预测最佳，而在KIRC样本中预测最差（图3c）。

对于GC预测，结果也相似，尽管与TLS检测相比性能有所下降（图3d）。

最后，作者在TCGA测试集中的随机选择的LUSC样本上测量了观察者间变异（补充图1）。作者选择LUSC进行这项实验，因为该队列在测试集中具有最多的TLS和GC注释，从而确保了评估两个类别的最大统计能力。

作者发现HookNet-TLS的F1分数与两名训练有素的注释者之间的F1分数相当（图3e）。

HookNet-TLS和读者研究的主要不准确性来源是假阴性检测，而Faster-RCNN是假阳性检测（补充图2a、b）。HookNet-TLS在TLS检测方面略低于手动注释者的精确度（更高的假阳性预测），但提高了敏感性（补充图2c、d）。TCGA测试集的整体F1分数与每个类和肿瘤类型的可用训练注释数量直接相关（图3f、图1c），这表明增加训练注释的数量可以提高HookNet-TLS对两个类别的预测性能。

HookNet-TLS和Faster-RCNN检测对象的典型图像显示在图3g中。

3-3：HookNet-TLS识别TLS和GC特征

作者接下来研究了HookNet-TLS模型在不同器官中检测到的单个TLS和GC的不同参数，例如大小、密度和形态。

作者发现，模型在所有肿瘤类型中检测到的TLS密度都高于手动注释（图4a），这与较高的假阳性率（补充图2b）一致。

然而，除了预测错误外，假阳性预测中也有真正的TLS，这些作者在回顾性分析中确认了在手动注释中遗漏（补充图3）。检测到的GC密度在这两种方法中相似（补充图4a）。

总体而言，三种肿瘤类型中TLS密度存在显著差异，LUSC显示最高，而KIRC显示最低，这同样被手动注释和HookNet-TLS预测检测到（图4b）。

对于GC密度，结果也是相同的（补充图4b）。作者的免疫染色基础的定量病理学分析显示，TLSs在具有突出的淋巴样再生的肿瘤中更大（TLS-high肿瘤）8,10。

HookNet-TLS在H&E图像中检测TLS大小差异方面优于手动分析（图4c），这表明HookNet-TLS以高精度捕捉了单个TLS的区域（形状）。

最后，与作者之前的报告一致8,10，作者发现TLS-high肿瘤中的GC密度显著高于TLS-low肿瘤，两种检测方法均得出此结论（补充图4c）。

使用统一流形近似和投影（UMAP）36，作者进一步探索了HookNet-TLS学习的主要编码特征。

这些特征是从目标分支的最低层提取的，输入数据的视野最大化，假设这些特征最能描述每个区域及其空间上下文的整体形态特征。

作者发现，TLSs和GCs在三种不同器官和不同数据集（训练、验证和测试幻灯片）中编码方式相似（图4d），支持了HookNet-TLS用于泛癌症TLS分析的潜在应用。

编码特征是从每个区域的中心补丁提取的，因此TLS中存在GC可能与TLS中不存在GC的编码方式不同。为了测试这一点，作者对所有注释和预测的TLS和GC区域的编码特征进行了无监督的PhenoGraph聚类。

作者得到了14个不同的聚类（图4e），其中几个聚类与预测的GC相比，TLSs显著富集（图4f）。

作者接着探索了相应测试集图像中分配给不同聚类的TLS预测，并确认大多数属于聚类7的TLS包含一个GC（图4g），而聚类1占据UMAP分布的另一端的TLS预测没有GC。这些数据表明，HookNet-TLS捕获了TLSs和GCs的有用形态特征。

3-4：HookNet-TLS预测具有预后相关性

为了评估手动TLS注释和HookNet-TLS预测的预后相关性，作者分析了TCGA队列的相应临床信息（表1）。由于三种肿瘤类型之间总TLS密度（每总面积的TLS数量）存在显著差异（图4b），作者根据所有幻灯片基于肿瘤类型特定的中位数TLS密度定义了生存组。

当分析每种肿瘤类型的队列时，排除训练集图像，手动TLS密度在LUSC中与较长的总体生存期相关，在KIRC中与减少的生存期相关（图5a），这与作者和其他人的先前结果一致8,26。

在BLCA中也发现了生存相关性的正向趋势，当包括训练样本时，该趋势达到了显著性（补充图5a），这与作者之前的报告结果相符10。组合测试和验证队列与整个队列相比，统计能力降低的原因是作者需要将更高比例的TLS-high BLCA和KIRC肿瘤纳入训练集，以实现不同肿瘤类型之间TLS和GC训练注释的相似比例。

先前有研究表明，TLS向活跃GC的成熟对于TLS密度的好处以及与不同肿瘤中免疫治疗的改善反应相关8,37–40。作者发现，包括GC的手动注释TLS在LUSC和BLCA中没有显著的生存相关性，而在KIRC队列中GC患者太少，无法进行有意义的比较。

HookNet-TLS预测的总TLS密度在KIRC中显示出类似的生存相关性，并且在LUSC中的生存效益比真实注释更为显著（图5a）。

此外，HookNet-TLS检测到的GC+ TLSs在LUSC患者中与改善的生存显著相关（图5b）。

然而，HookNet-TLS预测在BLCA中无论是测试和验证队列还是整个队列都没有检测到任何生存效益（补充图5）。

为了调查这是否是由于预测性能不足，作者在训练阶段实施了一种所谓的迭代硬负挖掘，其中训练数据上的假阳性预测被自动分配为Rest类，用于后续训练迭代。尽管整体F1分数略有提高，但每张幻灯片的F1分数没有发现显著差异（补充图6b），这表明在不添加更多TLS和GC训练注释的情况下，预测性能无法显著提高。

调查HookNet-TLS预测图像并未揭示BLCA与其他肿瘤类型在非TLS区域检测（假阳性区域）的数量或质量上的任何差异（补充图7），这表明可用的BLCA整体队列大小在统计能力上已达到最低限，无法检测BLCA患者生存与TLS密度之间较弱的关联。

最后，作者进行了与相关临床和病理参数（表1）的多变量Cox回归分析，并证明预测而非手动总TLS密度是LUSC中一个独立的阳性预后因素（作为连续变量）（真实注释p = 0.2，预测TLS p = 0.046），而在KIRC中，TLS与肿瘤分期或年龄不独立（表2）。

与此一致，作者发现TLS密度在晚期KIRC样本中增加，但在BLCA或LUSC样本中没有增加（补充图8）。综上所述，HookNet-TLS预测在LUSC和KIRC中具有与手动TLS评估相似的预后能力，而需要扩展BLCA队列以验证HookNet-TLS预测区域的预后相关性。

四、讨论

肿瘤微环境中的TLSs被认为是新的生物标志物，人们正在努力标准化它们的定量。作者最近的研究分析表明，通过H&E染色或免疫染色直接在组织切片中定量TLSs对于获得可靠的结果是必要的10。

然而，通过视觉检查在H&E中识别TLS可能具有挑战性，尤其是在重度炎症的组织中，这可能导致手动TLS定量中存在相当大的主观性。为了解决这个问题，作者旨在开发一个深度学习模型，用于检测TLSs和GCs，以支持基于TLS的生物标志物的定量。

此外，作者的方法完全自动化，且仅需要H&E染色的幻灯片，这使得能够基于常规可获得的基于大规模回顾性和前瞻性研究的TLS定量。

在分析整个切片H&E图像时，病理学家使用多种放大倍率来识别不同的细胞类型和组织结构。在TLS定量的背景下，需要使用多种分辨率，并因此包含上下文信息，以区分高炎症区域和TLSs。

首先，在高分辨率下检测高免疫细胞密度的区域。其次，在低分辨率下评估免疫细胞密度下降的边界，以定义聚集而非连续浸润的特征，这是无组织炎症的典型特征。HookNet通过分割实现了TLS检测的多分辨率评估。相反，基于检测的方法（如Faster-RCNN）预测边界框，因此缺乏形态特征的预测，例如面积和形状，这使得定量分析的准确性受到影响。

由于WSI中分割对象的任务复杂，由于存在大量的数据和各种组织外观，因此训练HookNet-TLS模型需要由三位经过培训的研究人员进行彻底注释的TCGA幻灯片。这使作者能够评估模型在整张组织切片上的性能，以及在比较不同观察者之间的变异性时。然而，作者使用IHC作为参考标准的客观评估表明，手动TLS注释并不完美。一小部分小TLSs被遗漏，导致假阴性检测约为16%。

此外，在KIRC中，主要由T细胞聚集引起的假阳性TLS检测，这些聚集在H&E染色中与B细胞聚集无法区分。这些T细胞聚集是否代表TLS的前体阶段目前尚不清楚。作者还发现，由于H&E染色中无法通过特定形态学识别较小的GC，因此手动GC检测不理想。

这些结果揭示了手动TLS检测在H&E图像中的局限性，这也影响了模型的训练和准确性测试。作者观察到TLSs和GCs的可用训练注释数量与每个肿瘤类型的模型精度之间存在直接相关性。在尝试不扩大训练切片集（从而减少独立的测试集）的情况下，作者开发了一种迭代训练方法，称为硬负挖掘，它自动将假阳性预测分配为Rest类，用于后续的训练迭代。

尽管它改善了对稀有伪影的处理，但它并没有实现更好的TLS检测，甚至在第三次训练迭代中降低了GC类的性能（补充图6）。

在作者的IHC控制的USZ样本以及TCGA预测的回顾性检查中，作者发现假阳性预测也包含在手动注释中遗漏的真实TLS。进行大规模分析时的疲劳、TLS定义的主观标准和缺乏IHC数据作为参考标准等因素导致了这些错误。作者表明，HookNet-TLS能够编码每个注释类的形态差异，并且可以识别TLS特征聚类中的GC阳性TLS。未来的工作可以集中在改进硬负采样策略上，通过使用特征编码的无监督聚类来区分真正的TLS/GCs和真正的Rest组织中的假阳性。

此外，作者还表明，模型在不同的器官中通过UMAP空间对TLS进行编码，显示了模型可以独立于每个器官捕获TLS特征的潜力，这表明了可能的泛癌症应用案例。

然而，作者的模型在初始训练迭代中显示了在不同的肿瘤和样本来源上具有类似的性能，并且在观察者之间变异性的范围内。将IHC指导的注释过程实施到未来的工作中，将确定T细胞和B细胞聚集是否可以通过深度学习区分，以及确保TLS和GC变异性的充分采样，这可能会进一步提高模型在不同器官上的稳健性和准确性。

作者进行了两项手动图像分析步骤（见方法部分）在应用模型之前：(i) 排除缺乏相邻正常组织的幻灯片，以及(ii) 注释淋巴结区域以排除，因为它们与TLS具有高度的形态学相似性。在未来的工作中，这些步骤可以整合到HookNet-TLS管道中，通过使用自动质量控制和 tissue 分割，以及淋巴结检测器。

此外，通过整合肿瘤/非肿瘤组织分割，可以在肿瘤内和肿瘤周围区域进一步细化TLS密度评估。

这种细化包括距离肿瘤测量的整合。这种丰富分析的潜力在于提供更细致的见解，因为TLS与肿瘤区域的分布和邻近性可能包含额外的预后信息。

此外，利用这种方法可以基于肿瘤面积或特定的正常区域（大多数TLS发展）对TLS密度进行标准化，这可以提供一种更标准化的指标，考虑到可用组织大小的变化，并有助于在不同样本或患者队列之间进行更准确和一致的比较。

一个有希望的提升领域可以通过与nnUNet的集成来研究，nnUNet是一个自我配置的医学图像分割框架，它优化U-Net的训练超参数。将HookNet-TLS与nnUNet融合成一个单一框架，可能会通过结合它们的优点来提高性能，代表了未来探索的鼓舞人心的主题。

作者分析了HookNet-TLS预测的TLS和GC密度与TCGA相应的临床数据。预测的TLS计数在LUSC和KIRC肿瘤类型中显示出与手动注释的TLS相似的预后关联，而在BLCA中的预后关联较弱，需要更大的样本进行可靠的评估。

总的来说，分析的TCGA队列中TLS与临床参数之间的关联与之前不同临床中心获得的各种不同的关联一致：TLS是非小细胞肺癌的独立阳性预后因素8,43–46，在BLCA中是阳性预后因素10,47,48，而在未经治疗的KIRC中则代表了各种实体肿瘤中的一个独特例外，其中TLS或B细胞浸润与较差的预后相关26,49。

TLS成熟度的差异被提出为不同肿瘤类型中不一致的预后TLS关联的可能解释3。作者还展示了三个器官中总TLS和成熟TLS发展的显著差异。这可能表明每个器官特有的实质组成定义了淋巴样再生的可允许性。支持这一点的是，与在皮下生长的相同肿瘤相比，腹膜内移植性黑色素瘤的TLS发展更为突出50。

然而，可能更重要的是，这种差异也可能由不同肿瘤类型的内在分子特征驱动。例如，在表达HER2的原发性乳腺癌中TLS比HER2阴性者更为常见51,52，而激素受体表达与TLS发展呈负相关51–54。

在肾癌肺转移与结直肠癌肺转移相比，TLS发展减少，这反映了各自原发部位TLS发展的差异55。此外，内在肿瘤抗原性也被报告为结直肠癌37,56、膀胱癌10和胰腺癌57中TLS发展的积极因素。

与TLS发展可以在每个研究中的各种条件和患者组之间进行比较，但由于不同的TLS定义和定量标准，不同研究之间的结果比较受到阻碍。作者开发的深度学习模型为来自多个来源的样本提供了客观的TLS定量，并将对跨研究结果的协调非常有用。

作者发布了HookNet-TLS的源代码，以及训练集的手动注释，并提供HookNet-TLS模型作为公开可用的网络工具，供研究使用（请参阅数据和代码可用性部分以获取详细信息）。

总的来说，作者介绍了HookNet-TLS模型，这是一个深度学习方法，用于检测全切片图像中的TLSs，其性能优于单一分辨率的检测方法，并且在当前的训练迭代中的精度与观察者之间的变异性相当。

重要的是，作者的发现表明HookNet-TLS预测具有预后相关性，并且可以用于多个临床中心和器官的客观TLS定量。这些特性对于可靠地评估TLSs作为预测和/或预后生物标志物至关重要，未来可能被纳入常规病理工作流程。