李飛飛等人論文登上Nature子刊:人工智慧為ICU病人帶來福音
這篇論文的海報
摘要
早期頻繁的患者移動大大降低了 ICU 後綜合徵(post-intensive care syndrome)和長期功能障礙的風險。來自斯坦福大學的研究者開發和測試了計算機視覺演算法來檢測成人 ICU 病房中的患者移動活動。移動活動被定義為將患者移上或移下床、移上椅子或移下椅子。研究者從 Intermountain LDS 醫院的 ICU 病房中收集了一組具備隱私安全性的深度視訊影象,包含 563 個移動活動例項和 98,801 幀視訊資料,這些資料來自 7 個安裝在病房牆上的深度感測器。總的來說,67% 的移動活動例項用於訓練演算法來檢測移動活動的發生時間和持續時長以及參與每次移動的醫護人員數量。剩下的 33% 例項用來評估演算法效能。檢測移動活動的演算法在四種活動中達到了 89.2% 的平均特異性(specificity)、87.2% 的敏感度(sensitivity)。量化移動活動中醫護人員數量的演算法達到了 68.8% 的平均準確率。
引言
長期高強度護理的倖存者經常患有 ICU 後綜合徵,其特徵是長期的認知和身體障礙,導致功能狀態顯著下降。移動重症患者可以縮短脫離呼吸機的時間、減少精神錯亂、防止肌肉萎縮和身體功能障礙(ICU 獲得性虛弱)。這一點很重要,因為這些都是可以預防的傷害,會影響病人整體的生存、獨立展開生活的能力以及和健康相關的生活質量。雖然早期研究表明,移動性干預有利於特定的患者群體,但還需要更詳細的研究來確定移動性活動的型別、頻率和持續時間的變化對不同患者群體的影響。然而,目前此類研究的範圍很有限,因為早期移動協議的實施需要克服大量組織和文化障礙,而且其成功歷來難以衡量。
當前監測病人移動性的做法包括直接觀察和挖掘電子健康記錄(EHR),來記錄移動性事件。這些方法費時費力,且容易導致不準確的記錄,並且在病人護理和報告之間存在明顯的時間差。計算機視覺技術(CVT)提供了一個替代方法:從臨床環境中被動地捕捉資料,然後應用機器學習演算法來自動檢測和量化病人與醫護人員的活動。事實上,人們對在醫院中使用 CVT 進行活動識別和改善病人護理越來越感興趣。例如,計算機視覺已被用來在醫院走廊自動識別醫護人員的手部衛生活動和急診科的復甦事件。CVT 還被用在手術室中,演算法識別病人護理任務(如將病人移至手術檯)、手術過程中的步驟和工具,甚至外科醫生的手術水平。最後,也是與本文研究最相關的是,Ma 等人使用 CVT 來確定單個 ICU 病房中患者的數字移動水平。基於這項研究,本文使用基於深度感測器的 CVT 收集了來自 7 個成人 ICU 病房的資料,開發了機器學習演算法來檢測病人的床邊活動時間和參與的醫護人員數量。
結果
檢測移動性活動的演算法效能
研究者對演算法在視訊資料單個幀上的預測結果(幀級別預測)進行了評估,發現檢測移動性活動發生的演算法在四種活動上達到了 87.2% 的平均敏感度和 89.2% 的平均特異性,平均曲線下面積(AUC)為 0.938。每種活動的 ROC 曲線如圖所示。幀級別預測被合併,用於確定演算法檢測到的移動性活動的持續時長。演算法預測的所有移動性活動的平均持續時長為 7.6s(標準差為 12.6s,最小值為 0.4s,最大值為 146.5s,每種活動的持續時長參見補充資料 1)。為方便對比,基於人工稽核的標註資料(真值)得出的所有活動平均持續時長為 0.9s(標準差為 12.9s,最小值為 0.5s,最大值為 123.9s,關於演算法預測持續時長和真值持續時長的對比請參見補充表 1)。活動分類正確且預測持續時長在真實值標準持續時長+ /− 15% 範圍內的移動性活動佔 58.1%;預測持續時長在真實值標準持續時長+ /− 25% 範圍內的活動佔 68.7%;預測持續時長在真實值標準持續時長+ /− 50% 範圍內的活動佔 82.0%。
圖 1:檢測移動事件發生的演算法效能。(a):在每一幀上評估的每個類別的特異性和敏感度。(b)每個類別的 ROC 曲線。ROC 曲線表示敏感度(真正率)和 1-特異性(假正率)之間的權衡。
補充表 1:活動持續時長真值和預測值對比。
檢測醫護人員數量的演算法效能
用於量化每個移動事件中醫護人員數量的演算法達到了 68.8% 的平均準確率。圖 2 是真值 vs. 預測人數的混淆矩陣。該矩陣表明,當病人單獨行動時,演算法準確檢測到 0 名醫護人員的概率為 75%,當 1 名醫護人員出現時,演算法準確檢測到 1 名醫護人員的概率為 74%。對 2 或 3 名醫護人員檢測的準確率分別為 62% 和 60%。在 78% 的時間裡,演算法可以正確檢測 2 個或更多的醫護人員。
圖 2:量化移動事件中醫護人員人數的演算法效能。該混淆矩陣展示了移動事件例項中醫護人員的真正數量(0–3)和演算法檢測到的數量的對比。當病人自己移動時,演算法檢測到的醫護人員數量為 0。當病人在一名醫護人員的幫助下移動時,演算法檢測到的結果為 1,依此類推。
圖 3 展示了演算法輸出的定性示例。圖中顯示了兩個(壓縮)時段的取樣深度影象幀。此外,下圖中的時間線還顯示了檢測到的活動型別、發生時間、持續時長,以及涉及的醫護人員數量。為方便對比,下圖還顯示了真值資料。
圖 3:移動事件發生和醫護人員出現的時間線。上圖展示了兩個時間線,每個時間線中展示了該時段內的取樣深度影象幀。人物檢測的空間邊界框是重疊的(為方便觀看,僅在中間幀上顯示)。每個移動事件中的時間範圍和醫護人員數量(pers)都顯示在時間線上。為方便對比,時間線上還顯示了人類標註的真值資料。
方法
該研究在鹽湖城 Intermountain LDS Hospital 的成人 ICU 病房展開,開展時間為 2017 年 8 月-10 月。研究參與者為進入 ICU 病房的病人和醫院職工,病房裝有計算機視覺深度感測器。
該研究依靠深度感測器來收集資料。深度感測器基於人和物體與感測器的距離來捕捉其 3D 影象,從而既提供了視覺資訊又能保護隱私。感測器安裝在七個單獨的病房內,安裝位置正對病床,在研究開展的兩個月內 24 小時不間斷收集資料。
病房佈局和感測器安裝佈局如下圖所示:
關於資料標註,研究者請訓練有素的研究助理對收集到的資料進行手動評估和標註,將這些活動分為四類移動事件:病人離開病床、病人移到病床、病人離開椅子、病人移到椅子。
訓練和測試資料集
最終資料集中包含 563 個移動事件標註類別,其中 154 個屬於病人離開病床、182 個屬於病人移到病床、112 個屬於病人離開椅子、115 個屬於病人移到椅子上。最終資料集涵蓋 98,801 個數據幀,時長 5.7 小時。研究者隨機選取資料集中 67% 的移動活動例項和幀作為訓練資料,另外 33% 作為測試資料。因此,有 379 種病人移動活動例項被用於訓練,其餘 184 種例項用於測試。測試資料集中病人離開病床的例項有 48 個,病人移到病床的例項有 64 個,病人離開椅子的例項有 32 個,病人移到椅子上的例項有 40 個。
訓練資料增強
研究過程中還使用了資料增強技術。為了提升演算法效能,研究者使用對目標移動事件的資料模擬來增強訓練資料集。下圖展示瞭如何將模擬資料融入訓練資料集。需要注意的是,模擬資料僅用於改善模型訓練,而不用於演算法準確率的評估,使演算法準確率評估仍基於病人資料。
下圖展示了演算法在訓練資料有/無模擬資料時的效能資料。我們可以看到這種增強資料方法有效地提升了模型效能,且時間效率很高,它將模型在評估資料集上的平均敏感度和特異性分別從 82.93% 和 84.44% 提高到了 87.20% 和 89.20%。
移動事件型別及持續時長的檢測模型
移動事件型別及持續時長的時間檢測演算法是一個多標籤迴圈卷積神經網路模型。研究者在大規模 ImageNet 資料集上對 18 層的 ResNet 進行預訓練,然後再在該研究的資料集上對模型進行精調,以便模型能從每一個數據幀中提取有資訊的視覺特徵。之後,研究者使用兩層的 雙向LSTM 網路在這些特徵的連續 64 幀序列中對時間結構進行推理。該研究集成了 6 個此類模型,來生成最終檢測輸出。
醫護人員檢測模型
該研究中用於量化每個移動事件中醫護人員人數的演算法是基於 YOLOv2 卷積神經網路構建的。研究者使用YOLOv2 預測每個資料幀中人員的空間位置。在研究所用的資料集中,有 7% 的移動事件沒有醫護人員,51% 的移動事件中有 1 名醫護人員,32% 的移動事件中有 2 名醫護人員,10% 的移動事件中有 3 名醫護人員。
演算法的效能評估
該演算法的準確率評估方法是:對比真值結果和演算法的預測結果。使用 Python 3.6 執行敏感度、特異性和 ROC 計算。
論文連結:https://www.nature.com/articles/s41746-019-0087-z