广医杯:基于多模态数据的肺癌智能早筛与分型算法
Guangyi Cup: Intelligent Early Screening and Classification Algorithm for Lung Cancer Based on Multimodal Data

承办单位:⼴州医科⼤学附属第⼀医院国家呼吸医学中⼼


融合深度学习与多模态分析技术,对CT影像、病理切⽚、基因检测数据进⾏联合建模,实现肺结节良恶性分类、病理亚型诊断及关键基因突变预测。

赛题背景与目的:

肺癌是全球致死率最高的恶性肿瘤,早期筛查与精准分型是提高患者生存率的关键。传统诊断依赖医生经验整合CT影像、病理切片和基因检测等多模态数据,存在效率低、漏诊率高(约15%-30%)、分型主观性强等问题。本比赛旨在通过人工智能技术融合多模态数据,实现:高精度肺结节良恶性分类,肺癌病理亚型自动诊断,关键基因突变无创预测,推动AI技术从单一影像分析向多模态临床决策跨越,解决肺癌早筛“最后一公里”难题。

比赛任务:

本赛题的主题是“基于多模态医疗数据的肺癌智能诊断”。参赛者需融合深度学习与多模态分析技术,对CT影像、病理切片、基因检测数据进行联合建模,实现肺结节良恶性分类、病理亚型诊断及关键基因突变预测。任务要求模型兼顾高精度(敏感度≥95%)与临床实用性(单病例全流程推理≤3秒),推动AI技术在肺癌早筛中的临床落地。参赛者需开发多模态AI模型,完成以下端到端流程:

1. 输入:

  • 低剂量CT影像(DICOM,层厚1mm)
  • 病理全切片图像(WSI,20-40倍放大)
  • ctDNA甲基化数据(待确认能否取得基因训练样本)

2. 输出:

  • 结节恶性概率(0-1,保留4位小数)
  • 病理亚型分类(腺癌/鳞癌/小细胞癌/其他)
  • 基因突变状态(待确认能否取得基因训练样本)


数据集说明:

本赛题提供两类数据集:

1. 开源多模态数据库(MIT-BIH/PTB-XL同级权威数据):包含清洗完毕、格式统一且标注完善的公开数据:

LIDC-IDRI:1,018例肺部CT影像,含4名放射科医生的结节标注(位置、大小、恶性概率)。
TCGA-LUAD:516例肺腺癌患者的病理全切片图像(WSI)与RNA-seq基因数据。
NLST:约54,000例低剂量CT筛查数据(2002年8月至2004年4月),含长期随访结果。
数据已预处理为标准化格式(DICOM、PNG、CSV),参赛者可直接用于模型训练与验证。

2. 匿名化临床脱敏数据

包含500例未经预处理的临床数据(CT影像+病理报告+基因检测),参赛者需完成:

(1)数据归一化:将开源数据训练的预处理流程迁移至临床数据(如CT层厚对齐、病理染色归一化)。
(2)疾病预测:输出结节的恶性概率、病理亚型及EGFR/ALK突变状态。



点击进入报名参赛