通過機器學習解決南非的癌症報告延遲問題
癌症登記處儲存著重要的資料集,被嚴格加密,包含人口統計資訊、病史、診斷和治療。腫瘤學家和衛生官員利用這些資料瞭解全國癌症確診病例和發病率。最終目標是利用這些資料為公共衛生規劃提供資訊。 雖然實時更新不切實際,但多年的延遲更新使官員難以瞭解癌症對南非的影響並做相應的分配資源。
非結構化病理報告包含腫瘤特異性資料,是癌症登記處收集資訊的主要來源。人類專家將病理報告貼上國際癌症分類(ICD-O)的標籤,這其中涵蓋42種不同的癌症型別。手工程式和每年收到的報告數量的結合導致南非連續四年的滯後。相比之下,美國推遲了將近兩年。
從一開始的目標是應用深度學習來自動化癌症病理報告標記,以加速報告過程。與南非國家癌症登記處合作,在使用了2201份未經鑑定的免費文字病理學報告對於這些報告來說其顯示了74%的準確率,這比目前的基準模型有所改進。相信通過更多的資料我們可以將準確率達到95%左右。
研究人員最初使用的是卷積神經網路的層次分類,儘管這不是首選。最初開始探索多類和二進位制卷積神經網路模型,但結果並不理想,幾乎都已經處在了放棄的邊緣。最後,在同事們的建議和支援下,逐漸的清理了文字,改進了特性工程流程,並將其改進到60%。這個結果是一個進步,但是至少需要百分之90-95才能使它在現實世界中足夠可信度。
經過更多的研究和探索,想到了減少多類問題的複雜性,建立了一種最先進的基於腫瘤ICD-O編碼系統層次結構的分級深度學習分類方法。因此,在使用了一種組合方法來識別類別層次結構,並使用專家知識對其進行驗證,以獲得比用於自由文字病理報告分類的平面多類模型更好的效能。