以前,醫(yī)療行業(yè)研究人員需要手動收集和分析大量的數據以進行疾病的預測和治療,面對龐雜的數據信息,相關的數據分析工作挑戰(zhàn)十分巨大。隨著人工智能領域的發(fā)展,醫(yī)生在見到患者的同時獲得基于實驗室檢查結果,家族病史,臨床試驗數據等生命統(tǒng)計數據的實時分析報告將成為現實。本文將以重癥監(jiān)護醫(yī)學領域的人工智能應用為例,講述如何使用DarwinML來輔助醫(yī)療行業(yè)數據科學家進行自動建模。
DarwinMLDataFusion數據抽取平臺

該平臺幫助醫(yī)療行業(yè)數據科學家將原始數據自動轉換為可以被模型使用的特征數據,功能通過數據流形式實現,研究者可以通過修改參數和拖拽節(jié)點靈活改變特征抽取過程。下圖是一個數據流示意圖。
DarwinMLStudio自動建模平臺
從數據導入和清洗為起點,DarwinML可自動建模并給出模型多方位評估結果,數據科學家只需要重點關注模型評估結果。研究者根據研究目標,自行返回去調整最初的數據清洗方案和模型設置,多次建模,選擇符合研究需要的最終模型。
DarwinML自動建模平臺全流程如下:
1)數據清洗:均衡樣本分布,填補缺失值,消除特征異常值,文本特征數值化等。
2)模型設計:根據數據自身特性,以及研究者的參數設定,自動構建搜索空間內的最優(yōu)網絡結構。網絡結構會在平臺中顯示如下。
3)


超參調優(yōu):對最優(yōu)網絡結構,結合數據特性,給出相匹配的最優(yōu)超參組合,比如下圖所示的“超參數”列中XGBClassifiler的learningRate和nEstimators等。
4)模型訓練:使用最優(yōu)網絡及超參組合,實際訓練模型。
5)模型評估:給出查全率,查準率,AUC等基礎指標值,并且從模型角度,給出重要列分析結果,從樣本角度,給出單個樣本的重要特征分析。
同時可以根據需要,DarwinML自動建模平臺也支持只使用部分功能。比如可以導入一組新患者的檢查數據,使用上次訓練好的模型,只做模型評估,來對這一組新患者的患病幾率做預判。
案例:重癥感染綜合征(又名敗血癥,Sepsis)預后研究
根據其較早期的檢查指標,我們使用DarwinML為重癥監(jiān)護室(ICU)患者預警感染重癥感染綜合征(又名敗血癥,Sepsis)的可能性,以及是哪些指標以何種方式導向這一結果。從而讓醫(yī)療領域數據科學家可以盡早地根據患者的各項檢查指標來判斷Sepsis病癥的預后。研究者通過模型預警提前介入,用藥治療挽救生命。
步驟一:數據抽取
根據研究需要,我們的特征抽取目標是,從620萬條檢查記錄中,涉及約20,000名患者的70項檢查,抽取出進入ICU之后符合一定條件的記錄,生成特征值用于模型。
DarwinML數據抽取平臺在這一過程中,可以幫助研究者完成三件事情:
1.數值化指標值:由于醫(yī)療設備各有差異,同一項指標的結果記錄不一致。比如:白蛋白(Albumin)指標,在部分檢查結果中記錄為數值0.5,1.9,2.9等,但有些檢查結果使用分段記錄“LESSTHAN0.3”,“LESSTHAN1.0”等,需要統(tǒng)一化處理為數值,用于模型訓練;

2.截取數據:研究者可以通過色設置參數,來對關注的部分進行數據截取。比如在本次案例中,研究者希望探究是否有可能在患者進入ICU72小時內給出感染Sepsis的預判,則研究者設定如下參數值來實現。
3.生成模型特征:由于患者的各項檢查時間不連續(xù),檢查間隔不穩(wěn)定,導致70項指標的缺失值平均高達86.88%,具有高稀疏性特點。平臺可以對620萬條檢查記錄進行特征生成,轉換為被模型直接使用的20,000條患者記錄,也就是每位患者一條特征數據。
上述步驟將在DarwinMLDataFusion,以數據流形式在1小時內處理結束。數據流的運行進展可以通過頁面日志實時查看,也可以在數據流實時顯示。
步驟二:數據清洗
DarwinML自動建模平臺會在數據導入后給出當前數據每一列的具體清洗建議。比如:是否需要填充缺失值,填充值取多少合適;這一列的數據是否有嚴重偏移,是否需要消除異常值;這一列是否是字符串列,模型無法直接使用,如何做數值化處理,是映射為0,1,2...,還是做ICA編碼提取語義等。當然,研究者可以選擇信任推薦的清洗方案,也可以自定義清洗方案。
下圖給出了DarwinML對不平衡數據分布自動做均衡化之后的結果,原本7:1的嚴重偏移分布(左圖),轉換為可以更好被模型擬合的2:1分布比例(右圖)。
“Hours0-72_Alkalinephosphate_min”數據由于含有異常值,數據分布呈現嚴重正偏態(tài),如下左圖,DarwinML自動推薦等距分箱,清洗后,如下右圖,消除了偏態(tài)分布。
在數據清洗完成后,DarwinML自動建模平臺會給出最終的數據寬表(如下圖)供反查。如果有不符合預期的處理,可以選擇“再次清洗”實現。

步驟三:模型設計、超參調優(yōu)、模型訓練
DarwinML自動完成。
步驟四:模型評估

在DarwinML完成自動建模后,研究者可以查看模型評估結果來進行分析。比如:當我們完成了一個模型,看到ROC曲線如下,AUC約等于0.9249,模型整體準確率較高。

但當我們進一步查看模型重要列分析,發(fā)現模型給出重要性較高的指標是Diastolicbloodpressure(舒張壓)等體征指標,而研究者更為關注的是各項病理檢查指標。

為了排除影響,我們選擇再次清洗數據,把體征指標從數據中剔除掉,再次自動建模。

剔除體征指標后,得到一個新的模型,AUC約等于0.9094,略有降低,但模型的實際功能更符合研究需要。

接下來,我們可以查看評分卡結果,并對來患病幾率選擇一個門限,比如0.3,這時查準率大約為0.94。在實際使用中,當模型給出的患病幾率超過門限0.3,我們就可以初步判斷這位患者易感,需要重點關注。
結語
本文主要以重癥感染綜合征(又名敗血癥,Sepsis)的一次預后研究為例,對DarwinML自動建模平臺展開介紹。DarwinML同時支持時間序列、圖像分類、圖像目標識別、OCR等任務,兼容研究者自定義的模型應用。在輔助醫(yī)療行業(yè)數據科學家進行自動建模過程中實現了自動化、人性化、專業(yè)化等極具應用價值的目標。
本?為探智立?與廣州市婦女兒童醫(yī)療中心李麗娟博?合作研究案例
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!