摘要
空间转录组学是一种新兴的技术,它以高空间分辨率测量RNA丰度,从而可以系统地将细胞邻域的形态学和具有空间信息的基因表达联系起来。它为理解肿瘤等复杂生物系统的细胞异质性和组织结构提供了有价值的工具。然而,空间转录组学数据通常具有噪声,从病理学图像中识别空间转录模式和肿瘤空间异质性具有挑战性。 通过深度学习从组织病理学图像中识别空间转录模式是一种新兴的研究方向,它为临床病理解读、辅助疾病早筛特别是癌症早期诊断提供潜在有效工具。本文中提出的Image2STp方法利用深度学习算法从组织病理学图像中预测多个目标基因表达,同时预测组织病理学图像对应的肿瘤分型。Image2STp充分利用了病理学图像中细胞形态和组织学形态等特征信息来预测基因表达空间模式和肿瘤细胞分子分型。该模型将切割后的病理学图像作为输入,使用多头注意力机制来识别病理图像数据中的相关特征,然后将提取的特征用于预测基因的表达水平和肿瘤分子分型。 Image2STp是一种端到端的多任务模型,可以同时执行预测病理图像对应的多个目标基因表达水平和空间上的肿瘤分型,与传统的单任务预测基因表达或肿瘤分子分型的方法不同。本论文中,Image2STp预测了 20个基因,其中包括已知的乳腺癌肿瘤细胞标识基因,其表达可以从高分辨率(对应空间转录数据bin的大小为100μm)的组织病理学图像中预测。我们同时预测了组织相邻无标签病理学切片的肿瘤分子分型和基因表达。通过关联多个任务,该模型可以学习到更稳健的空间转录模式包括空间基因表达和肿瘤空间异质性。 本文使用来自10X Genomics平台生成的空间转录组数据对Image2STp进行了训练和测试,该数据包含了乳腺癌病理切片的高分辨率病理图像和对应空间坐标的全转录本水平的基因表达量。结果显示Image2STp在准确性和效率方面优于已有模型。该算法还可以很好地预测相邻无标签病理学切片的基因表达和肿瘤空间异质性模式,无需重新训练。总之,Image2STp是一种从组织病理学图像中预测空间转录组模式的深度学习模型,通过多任务学习直接从组织图像识别组织的空间分辨转录组模式,从而可以准确预测空间上基因表达水平及肿瘤细胞分子分型。