结直肠癌(Colorectal cancer, CRC)患者的预后与病理分期有关,美国癌症联合委员会TNM分期系统是结直肠癌患者预后预测的基础[1-2]。然而,分期相同的患者之间存在生存异质性,需要构建更精确的个体化生存预测模型来指导治疗决策。
癌胚抗原(Carcinoembryonic antigen, CEA)是CRC中公认的肿瘤标志物,已被纳入预后预测模型[3-5]。除CEA外,碳水化合物抗原19-9(Carbohydrate antigen 19-9, CA19-9)和碳水化合物抗原125(Carbohydrate antigen 125,CA125)也被报道与CRC的预后相关。然而,在包含CEA的模型中增加CA19-9和CA125能够在多大程度上改善预后模型的预测性能尚不清楚。
现有预测模型大多都是基于患者的基线信息构建的静态模型,不能对患者未来死亡风险进行动态预测。然而,CRC预后是一个动态的过程,利用术后随访过程中收集到的肿瘤标志物的重复测量信息以实现实时更新的、更准确的预后预测,也就是实现动态预测,具有重要的临床意义。随着CEA、CA19-9和CA125围手术期纵向测量信息的纳入,结直肠癌预后模型的预测性能提高,在结直肠癌术后随访的过程中同时监测CEA、CA19-9和CA125有助于更准确地预测结直肠癌患者的预后。所提出的动态预测模型,可以帮助临床医生充分利用目标患者可用的肿瘤标志物重复测量信息,在获得新的标志物测量值时及时更新预测风险以反映患者最新的预后。
目前的CRC预后预测模型仅包括术前肿瘤标志物的测量,在术后随访中收集到的纵向肿瘤标志物重复测量值未得到充分利用,包含血清肿瘤标志物围手术期动态测量的预测模型尚未建立,纳入围手术期CEA、CA19-9和CA125的纵向测量能够在多大程度上改善预后模型的预测性能尚不清楚,基于肿瘤标志物重复测量的预后动态预测尚未实现。
基于随机生存森林(Random survival forest,RSF)构建预测模型进行生存预测。基础模型包括人口统计学变量和临床病理学变量,在基础模型中分别纳入术前CEA、CA19-9和CA125构建基于术前测量值模型。基于函数型主成分分析提取术后12个月内CEA、CA19-9以及CA125的纵向变化特征,在术前模型中纳入表示特征的函数型主成分得分构建纵向测量值模型。
基于云南省肿瘤医院的数据构建上述预测模型,预测患者在术后18-60个月的生存概率,并使用10折交叉验证进行内部验证。从区分度和校准度两个方面评估了预测模型的准确性。模型的区分度用随预测时间变化的曲线下面积(Area under curve, AUC)来表示,校准度使用随时间变化的Brier评分(Brier score,BS)来表示。AUC越大,BS越小,模型的预测准确性越高。基于中山大学第六附属医院的数据进行外部验证,使用所提出的预测模型估计中山六院的患者在术后60个月时的生存概率,并绘制受试者工作特征(Receiver operating characteristic, ROC)曲线评估预测模型的外部验证效果。
基于标志物纵向测量值的预测模型能够实现对目标患者未来死亡风险的动态预测。动态预测通过计算条件生存概率来实现。随着新的标志物测量值的获得,目标患者的函数型主成分得分将会被重新估计,模型预测的条件生存概率也将更新。为了阐明个性化动态预测,从云南省肿瘤医院的研究人群中选择I-III期的三个目标患者进行验证,并将剩余患者作为训练集。依据训练集构建CEA、CA19-9和CA125的纵向测量值模型,以预测患者A和患者B未来的CEA水平和生存概率。
内部验证显示,包含术前CEA、CA19-9和CA125的预测模型性能优于仅包含术前CEA的预测模型。在包含术前CEA、CA19-9和CA125的预测模型中进一步纳入术后12个月内三个标志物的纵向测量值后,模型的预测性能进一步改善(图1)。在术后60个月,基础模型、CEA术前测量值模型、三个标志物术前测量值模型、CEA纵向测量值模型、三个标志物纵向测量值模型外部验证的AUC分别为0.581、0.597、0.620、0.696、0.736,与内部验证结果一致(图2)。
图1. 模型内部验证的AUC和BS
(图源:Li C , et al., BMC Med. 2023)
图2. 模型外部验证的ROC曲线
(图源:Li C , et al., BMC Med. 2023)
所提出的纵向预测模型可以为新患者提供个性化的动态预测,对I-III期的患者预测效果均较好。患有I期结肠癌的患者A在手术后至少存活了71.6个月,患有II期结肠癌的患者B在术后42.57个月死亡,患有III期低分化直肠癌的患者C在术后15.3个月死亡。如图3所示,CEA、CA19-9和CA125纵向测量值模型估计的CEA水平接近于观察到的测量值,且随着标志物测量值的逐渐纳入,预测的风险更接近真实情况。患者A的CEA水平在术后下降至正常并保持在较低水平,模型预测的生存概率逐渐变得平缓;患者C的CEA水平在术后逐渐升高,模型预测的生存概率随着时间的推移迅速下降。患者B的CEA水平在术后先降低后升高,模型预测的生存概率曲线低于患者A,高于患者B。基于所提出的纵向测量值模型搭建RShiny界面(图4)并上传至Github9,可以帮助临床医生实现对结直肠癌患者预后的动态预测。
图3. 基于CEA、CA19-9和CA125纵向测量值模型对患者A、B、C的动态预测
测量的时间点用垂直虚线表示,虚线左边是实际观察到的CEA测量值(用黑色的点表示)和模型估计的CEA水平(用蓝色的线表示),虚线右边是预测的生存概率(用红色的线表示)。
(图源:Li C , et al., BMC Med. 2023)
图4. 基于CEA、CA19-9和CA125纵向测量值模型搭建的RShiny界面
(图源:Li C , et al., BMC Med. 2023)
随着CEA、CA19-9和CA125围手术期纵向测量信息的纳入,结直肠癌预后模型的预测性能提高。推荐在结直肠癌术后随访的过程中同时监测CEA、CA19-9和CA125,以更准确地预测结直肠癌患者的预后。对于一个患者,临床上可以基于其纵向测量值预测预后,并在每一次获得新的标志物测量值时更新预测,以指导决策。
然而,本研究仅包含来自云南省和广东省的数据,样本代表性有限,预测模型能否推广到更广泛的结直肠癌人群需要进一步研究。且本研究基于回顾性队列设计,需要进一步在前瞻性队列中进行验证。
此研究成果的发表将推动结直肠癌领域对纵向肿瘤标记物数据的充分利用,提高其临床应用价值,指导临床实践。