早發現早治療系列之乳腺癌：DL模型為患者爭取五年治療時間

機器學習 · 發表 2019-05-09 14:26:16

摘要：雖然遺傳學和現代影像學已經取得重大進展，但診斷結果還是會令大部分乳腺癌患者感到震驚。對一些患者來說，診斷結果來得太遲了。確診越晚，意味著更激進的治療手段、不確定的治療結果以及更高的治療費用，往深一點說，是更高的死亡風險。因此，識別患者一直是乳腺癌研究和有效早期檢測的重點。基於此，...

雖然遺傳學和現代影像學已經取得重大進展，但診斷結果還是會令大部分乳腺癌患者感到震驚。對一些患者來說，診斷結果來得太遲了。

確診越晚，意味著更激進的治療手段、不確定的治療結果以及更高的治療費用，往深一點說，是更高的死亡風險。因此，識別患者一直是乳腺癌研究和有效早期檢測的重點。

基於此，由 MIT 電腦科學和人工智慧實驗室（CSAIL）和馬薩諸塞州總醫院（MGH）研究人員組成的團隊建立了一個深度學習模型。該模型能夠根據乳房 X 光照片預測患者未來五年內是否可能會得乳腺癌。

該模型是用來自 6 萬多名 MGH 患者的乳房 X 光照片訓練的，且照片結果是已知的（即照片中的人是否患有乳腺癌）。結果，該模型學習到了乳房組織中惡性腫瘤徵兆的細微模式。

該深度學習模型利用了全視野 X 光照片和傳統風險因素，其準確率高於當前的臨床標準 Tyrer-Cusick 模型（第 8 版）。

下面，我們看一下從論文中摘取的部分研究細節。

論文地址：https://pubs.rsna.org/doi/pdf/10.1148/radiol.2019182716

研究亮點

該深度學習模型基於乳房照片識別乳腺癌的高風險患者，並將 31% 未來可能患上乳腺癌的患者置於最高風險等級，而當前 Tyrer-Cuzick 模型僅將 18% 的患者置於此風險。

該混合深度學習模型對白人和非裔美國女性來說同樣準確（AUC 均為 0.71），而 Tyrer-Cuzick 模式則不同，白人女性和非裔美國女性的 AUC 分別為 0.62 和 0.45。而且該模型的 AUC 改善對白人（P < .001）和非裔美國女性（P < .01）來說很明顯。

將該模型與乳腺密度進行比較後發現，乳腺密度低且被模型評估為高風險的患者得乳腺癌的機率是乳腺密度高且被模型評估為低風險患者的 3.9 倍。

研究方法

資料收集

在 2009 年 1 月 1 日至 2012 年 12 月 31 日間，研究人員在一家大型三甲學術醫療中心收集了 60886 名患者的連續數字篩查乳房 X 光照片。對於每名患者，研究人員通過醫療保健系統內的五家醫院獲得結果，並輔以乳腺 X 光資訊系統電子病歷（Magview Version 8.0.143; Magview, Burtonsville, Md）中的病理髮現。

他們從電子病歷中供應商輸入的資訊和患者輸入的問卷中收集到了詳細的風險因素，並將每次乳房 X 光檢查與乳房 X 光檢查時出現的患者風險因素聯絡起來。

在這 6 萬多名患者中，研究人員排除了其中 21328 名，因為她們沒有足夠的後續檢查或者乳房中有另一種癌症。然後將剩下的 39 558 名患者隨機分配：31806 名患者的 X 光照片用來訓練模型，3804 名用來驗證模型，而 3978 名用來測試模型。

圖 1：樣本選擇流程圖。從 2009 年 1 月 1 日到 2012 年 12 月 31 日，連續進行了 134,924 次乳房 X 線篩查。如果檢查後在 5 年內確診了乳腺癌，則被定義為陽性，否則被定義為陰性。為了將測試集限制在陰性篩查人群，研究人員排除了檢查後 1 年內確診為乳腺癌的患者。

模型開發和評估

附錄 E1 中有關於所有開發模型、模型選擇和校準的詳細資訊。研究人員使用 IBIS 乳腺癌風險評估工具的 Command-Line 版本獲得了 TC 風險評估結果（版本 8）。

附錄 E1 地址：https://pubs.rsna.org/doi/suppl/10.1148/radiol.2019182716

他們使用 scikit-learn（0.19.1 版本）將僅考慮風險因素的模型實現為 logistic 迴歸模型（即風險因素 logistic 迴歸模型「RF-LR」）。然後，訓練 RF-LR 模型，從而在乳腺篩查時評估患者的風險因素，判斷該患者是否會在五年內患上乳腺癌。

針對僅包含影象的深度學習模型，研究人員使用 PyTorch（0.31 版本）來實現一個深度卷積神經網路（ResNet18）。在乳房 X 光照影象素為 1664×2048 的情況下，DL 模型被訓練用於預測患者是否會在五年內患上乳腺癌。DL 模型在全視場中使用整個乳房影象。

此外，研究人員還開發出了一個混合 DL 模型，以結合 RF-LR 模型中使用的影象資訊和風險因素。在評估模型時，他們計算了曲線下面積（AUC）。

接著，研究人員針對下列子組計算了每一模型的 AUC：美國白人和非裔美國女性、絕經前後女性以及有和沒有乳腺癌或卵巢癌家族史的女性。在評估模型捕捉長期未來風險的能力時，他們又計算了每一模型的 AUC ，以區分三至五年內患上乳腺癌和五年內沒有患上乳腺癌的患者。

混淆矩陣分析

研究人員利用混淆矩陣計算結合不同乳腺密度和混合 DL 風險的檢查結果。測試集中的每一項檢查按乳腺密度（行）和混合 DL 風險（列）置於單元格中，其中行對應稀疏（乳房 BI-RADS 分級中的 a 級和 b 級）和密集（乳房 BI-RADS 分級中的 c 級和 d 級），列對應按照混合 DL 排名的風險最低 50%（患上乳腺癌的風險最低的 50% 患者）和風險最高 50%（患上乳腺癌的風險最高的 50% 患者）的檢查。在每個單元格中，他們記錄下了五年內患上乳腺癌的檢查比例。

接著，他們重複類似分析與 TC 模型進行比較，其中行表示按 TC 模型的低風險、中度風險和高風險（即患者得乳腺癌的風險高低）（各三分之一），列表示按混合 DL 模型的低風險、中度風險和高風險（各三分之一）。最後，他們給出了混淆矩陣中每個單元格的示例乳房 X 光照片。

統計分析

研究人員用 R 專案（R Project for Statistical Computing）中的 pROC 包將 AUC 和 DeLong 測試進行了比較（P < .05 表示統計重要性），並使用 scikit-learn（0.19.1 版本）進行所有其它的統計分析。他們計算了在 5000 個叢集 bootstrap 樣本的統計資料，以獲得置信區間。

研究人員為訓練、驗證和測試集生成了可用風險因素資訊和結果的詳細分類，如下所示。TC、RF-LR 和混合深度學習模型使用的風險因素包括年齡、體重、身高、初潮年齡、絕經狀態、乳腺癌和卵巢癌的詳細家族史、BRCA 突變狀態、非典型增生史、小葉原位癌史和乳腺密度。作為訓練和驗證樣本的 80243 位患者中，有 3045 位患者（3.8%）在 5 年內確診為乳腺癌；而作為測試集的 8751 位患者中，有 269 位患者（3.1%）在五年內被確診為乳腺癌。