公眾號:醫(yī)學(xué)大數(shù)據(jù)挖掘分析
在往期推文中prediction,prediction我們曾經(jīng)介紹過臨床預(yù)測模型,以及如何參考PROBAST建立和評估臨床預(yù)測模型(點擊回顧)。本期將延續(xù)這個話題,詳細梳理臨床預(yù)測模型prediction的建模全過程。
1 開展預(yù)測建模前的考慮
計劃建立臨床預(yù)測模型前,建議廣泛閱讀相關(guān)文獻做好充分的文獻回顧分析,了解該領(lǐng)域已有的研究基礎(chǔ),存在什么不足之處;熟悉可用于建模的數(shù)據(jù)并評估數(shù)據(jù)質(zhì)量,確定預(yù)測模型分類和候選預(yù)測因素,充分闡明研究意義和臨床價值。
2 研究對象選擇---數(shù)據(jù)準備
1)研究設(shè)計:
在往期推文中(點擊回顧),prediction我們提到臨床預(yù)測模型可分為預(yù)后預(yù)測模型和診斷模型:
① 預(yù)后預(yù)測模型首選采用前瞻性、隨機對照試驗,雖然相關(guān)指南/工具沒有明確否定將回顧性隊列研究用于預(yù)測模型的做法,實際研究中如果使用回顧性隊列數(shù)據(jù),一定要留意數(shù)據(jù)存在的潛在偏倚的影響;
② 診斷預(yù)測一般采用橫斷面研究,有時候需要依賴隨訪獲取結(jié)局(確診)信息的診斷預(yù)測模型也可以采用隊列研究。
【切記】臨床預(yù)測模型不推薦使用病例對照研究;如果要使用巢式病例對照或病例隊列研究需要經(jīng)過特殊分析后謹慎用于預(yù)測建模prediction!
2)研究對象納排標準:
避免診斷預(yù)測時排除合并其他疾病者,或者預(yù)后預(yù)測時納入基線時已經(jīng)發(fā)生結(jié)局但尚未確診者等不當?shù)奶幚怼C枋鲅芯繉ο蠹{入研究的過程,包括有結(jié)局或無結(jié)局的研究對象數(shù)量以及隨訪情況(如果適用),建議制作流程圖。
3)數(shù)據(jù)質(zhì)量:
在數(shù)據(jù)收集階段就要開始注意,需要根據(jù)客觀標準定義數(shù)據(jù),并處理好數(shù)據(jù)缺失情況。
3 預(yù)測因素
1)預(yù)測因素可以是人口學(xué)特征、疾病史、癥狀體征、檢查檢驗指標、生化病理結(jié)果、組學(xué)及其他生物標志物等。需要注意研究對象預(yù)測因素測量方法、測量過程和測量時點的一致性,盡量選擇客觀的預(yù)測因素,由于預(yù)測模型并不是做因果推斷,因此可以不必限于預(yù)測因素和結(jié)局的因果關(guān)系。
2)在實踐中,預(yù)測模型傾向于選擇易獲得、獲得成本不太高、可以合理精度測量的預(yù)測因子。如果在測量精度不同的背景下應(yīng)用預(yù)測模型,則需要謹慎,因為這種差異將影響模型的普遍性。
4 結(jié)局
4.1 診斷預(yù)測的結(jié)局就是參考指南或診療規(guī)范確診的疾病,即根據(jù)各種檢查、檢驗、病原學(xué)培養(yǎng)、組織病理等公認的參比標準;
4.2 預(yù)后預(yù)測的結(jié)局選擇需要確保測量準確性和一致性,為了預(yù)測模型有較好的實際應(yīng)用價值,預(yù)測變量與結(jié)局之間的時間間隔要合理;
通常預(yù)后結(jié)局包括以下幾類:
1)死亡事件(包括全因死亡或特定疾病死亡):比如5年生存、3年生存等;
2)非死亡結(jié)局事件:如腫瘤復(fù)發(fā)/轉(zhuǎn)移、心血管事件(如心肌梗死、血運重建)、疾病加重/惡化等;
以上兩種結(jié)局可能同時用到,即“復(fù)合終點結(jié)局”;復(fù)合終點具有增加有效樣本量的優(yōu)勢,因此能有更好的統(tǒng)計分析把握度,但前提是必須假設(shè)每個終點組成具有相似的預(yù)后相關(guān)性。
3)以患者為中心的評估指標,又叫“主觀結(jié)局/終點”:如癥狀、功能狀態(tài)、健康相關(guān)生活質(zhì)量、效用;通常作為次要終點;
4)疾病負擔:比如因病缺勤、治療費用等,這一類結(jié)局主要是經(jīng)濟學(xué)研究關(guān)注較多。
此外結(jié)局變量數(shù)據(jù)類型選擇:
如果在二分類結(jié)局和連續(xù)結(jié)局之間有選擇,從統(tǒng)計學(xué)角度首選后者,因為它們在統(tǒng)計分析中提供了更多的把握度。此外,有序結(jié)局比二分類結(jié)局具有更大的把握度。
5 樣本量確定
臨床預(yù)測模型需要足夠的樣本量,根據(jù)不同研究目的,需考慮的關(guān)鍵點不同:
1)預(yù)測因素效應(yīng)研究:根據(jù)預(yù)期效應(yīng)量(如OR、HR)、預(yù)測因素發(fā)生率和事件發(fā)生率進行樣本量計算;
2)模型開發(fā):推薦至少100個事件(正樣本);如果事件發(fā)生率<20%,則根據(jù)EPV(events per variable,每個變量對應(yīng)的事件發(fā)生例數(shù))>10(最好是20個EPV)規(guī)則考慮候選變量的數(shù)量以增加樣本量。
3)模型驗證:
單水平模型:至少100個事件;
多水平模型:> 50組(每組50個受試者)
6 模型算法選擇
連續(xù)定量結(jié)局:線性回歸,多用于工程、心理和經(jīng)濟研究(比如費用預(yù)測)
二分類結(jié)局、有序或者無序多分類結(jié)局:Logistic回歸、ordinal logistic、多分類logistic回歸
離散、過離散數(shù)據(jù):泊松回歸、負二項回歸
對自變量進行轉(zhuǎn)化以估算非線性的效應(yīng)值:廣義相加模型(generalized additive model (GAM))
生存結(jié)局:Cox比例風險模型,競爭風險模型(Fine & Gray Model、多狀態(tài)模型Multistate model),參數(shù)生存模型——加速失效時間模型(accelerated failure time (AFT)), log-logistic,動態(tài)預(yù)測模型
不受模型前提假設(shè)限制:機器學(xué)習(xí)模型,如“CART”——分類或回歸樹、多變量相加回歸樣條(“MARS”)、支持向量機(SVM)、xgboost、隨機森林等
*公眾號回復(fù)“統(tǒng)計方法”,獲取獨家統(tǒng)計分析方法歸納圖*
7 模型調(diào)整和內(nèi)部驗證
預(yù)測模型的效果很有可能因場景、人群的改變而變化。因此,完整的預(yù)測模型研究應(yīng)包括模型的驗證。
驗證的內(nèi)容包括模型的內(nèi)部效度和外部效度:內(nèi)部效度體現(xiàn)模型的可重復(fù)性(reproducibility),利用研究項目本身的數(shù)據(jù),通過隨機拆分(如7:3拆分)交叉驗證(cross-validation)、Bootstrap 驗證等方法來回答;預(yù)測模型僅做內(nèi)部驗證,結(jié)論的可靠性和外推性較差。
8 模型性能評價和校準
模型預(yù)測的性能評價主要包括區(qū)分度(discrimination)和校準度(calibration),所有預(yù)測模型均應(yīng)報告這兩者;也可增加R^2、靈敏度、特異度、決策曲線等多維度反映模型性能。區(qū)分度差、校準不良的模型會降低模型的臨床實用性,甚至在某些情境下影響有效臨床決策,因此必須報告模型的性能指標作為模型使用者的參考。
分類預(yù)測模型除了常見的參數(shù)如ACC、靈敏度、特異度等指標外,還應(yīng)匯報PPV(陽性預(yù)測值)。若要評價引入新預(yù)測因子后的預(yù)測效能增加值,也可使用綜合區(qū)分改善度(IDI)及凈重分類改善度(NRI)等指標表明模型區(qū)分度的一致性指數(shù)(C-index); 表明模型校準度的擬合曲線或者Hosmer-Lemeshow index(一種判斷模型擬合優(yōu)度的指數(shù)); 還可以選擇決策曲線分析(Decision Curve Analysis)。
9 模型外部驗證
外部效度體現(xiàn)模型的普遍性(generalizability),需利用研究項目本身以外的數(shù)據(jù)(從時間上、地理上獨立或者完全獨立的數(shù)據(jù))來回答。
常見的外部驗證數(shù)據(jù)集選擇:
時間驗證或狹義驗證( temporal validation design),比如是把隊列中2011-2016年入組患者作為訓(xùn)練集,把2016-2018年入組患者作為外部訓(xùn)練集;
地理或廣泛驗證( spatial validation design),用一個中心/區(qū)域數(shù)據(jù)建模,取其他中心/區(qū)域的數(shù)據(jù)作為外部驗證。
10 模型更新和應(yīng)用
即便是經(jīng)過良好驗證的臨床預(yù)測模型,由于疾病危險因素、未測量的危險因素、治療措施以及治療背景等隨時間變化,模型性能下降,即校準度漂移(calibration drift)。若存在模型更新,應(yīng)詳細描述更新的方法,如重新校準截距或回歸系數(shù)、添加新的預(yù)測因子等。因此,臨床預(yù)測模型需要不斷進化、動態(tài)更新。
臨床預(yù)測模型的本意是借助少量的、易收集的、檢測成本低廉的預(yù)測因子來預(yù)測疾病的狀態(tài)和預(yù)后。因此,大多數(shù)預(yù)測模型都是短小精煉型的。這在信息技術(shù)不發(fā)達、數(shù)據(jù)收集、存儲、分析成本高的時代是科學(xué)而理性的。但隨著經(jīng)濟的發(fā)展、技術(shù)的進步,數(shù)據(jù)的收集、存儲成本大大降低,數(shù)據(jù)分析技術(shù)日益提高,臨床預(yù)測模型也應(yīng)突破固有的觀念,采用更大量而豐富的數(shù)據(jù)(大數(shù)據(jù)),復(fù)雜的模型和算法(機器學(xué)習(xí)、人工智能),以更精準的結(jié)果服務(wù)與醫(yī)生、病人以及醫(yī)療決策者。
參考資料:
[1] Moons K G M, de Groot J A H, Bouwmeester W, et al. Critical appraisal and data extraction for systematic reviews of prediction modelling studies: the CHARMS checklist[J]. PLoS Med, 2014, 11(10): e1001744.
[2] Luijken K, Groenwold R H H, Van Calster B, et al. Impact of predictor measurement heterogeneity across settings on the performance of prediction models: A measurement error perspective[J]. Statistics in medicine, 2019, 38(18): 3444-3459.
[3] Alonzo T A. Clinical prediction models: a practical approach to development, validation, and updating: by Ewout W. Steyerberg[J]. 2009.
[4] Kuhn M, Johnson K. Applied predictive modeling[M]. New York: Springer, 2013.
更多內(nèi)容,請關(guān)注“醫(yī)學(xué)大數(shù)據(jù)挖掘分析”公眾號,歡迎留言聯(lián)系~
郵箱:medicalda@tp-data.com
地址:廣州市天河區(qū)珠江東路高德置地秋廣場F座