ai人工智慧存在概率問題,盲目的誇張傾向於得分是不可取的。
AWS宣佈推出Amazon SageMaker Ground Truth,以幫助公司為機器學習建立培訓資料集。對於可以使用大量未註釋資料的人來說,這是一項功能強大的新服務。在過去,人類必須在視訊中標記大量的影象或幀,以訓練計算機視覺模型。除了人類,Ground Truth還使用機器學習來自動標記訓練資料集。
這是過去一年左右新興主題“機器學習機器學習”的一個例子。機器學習資料目錄(MLDC)、概率或模糊匹配、自動化培訓資料註釋和合成資料建立使用機器學習為下游後續機器學習生成或準備資料,通常解決資料稀缺或碎片問題。這一切都很好,直到我們開始認為機器學習本身依賴於歸納推理,所以它主要基於概率。
想象一下現實:醫療服務提供者希望使用計算機視覺來診斷罕見疾病,並且由於缺乏資料,自動註釋器用於建立更多訓練資料(更多標記影象),開發人員設定90%趨勢閾值,這意味著只有達到90%或更高精確分類概率的記錄才會被用作訓練資料。一旦模型被訓練和部署,它就被用於通過文字資料欄位的模糊匹配將資料從多個數據庫連結在一起的患者。來自不同資料集的實體可以匹配,只要它們具有90%的相同概率即可。最後,模型標記的影象具有90%或更高的可能性,其具有診斷所描繪的疾病。
問題是資料科學家和機器學習專家只關注最終傾向得分,以表明預測的整體準確性。這導致訓練資料的準備在演繹和確定性的世界中很好地工作,但是當您引入概率高於概率時,最終傾向得分不再準確。在上面的例子中,有一種觀點認為,準確診斷的概率從90%降低到73%(90%x 90%x 90%),這在生與死的情況下並不理想。