美國科學家警告：機器學習技術或引發“科學危機

IT · 發表 2019-02-22 15:10:47

摘要：新華社北京2月18日新媒體專電英媒稱，數以千計的科學家用來分析資料的機器學習技術正在產生具有誤導性且常常是完全錯誤的結果。據英國廣播公司網站2月16日報道，休斯敦賴斯大學的熱內薇拉·阿朗博士說，越來越多使用這種系統正在導致“科學危機”。她警告說，如果科學家們不改進技術，就會既浪費時間又...

新華社北京2月18日新媒體專電英媒稱，數以千計的科學家用來分析資料的機器學習技術正在產生具有誤導性且常常是完全錯誤的結果。

據英國廣播公司網站2月16日報道，休斯敦賴斯大學的熱內薇拉·阿朗博士說，越來越多使用這種系統正在導致“科學危機”。

她警告說，如果科學家們不改進技術，就會既浪費時間又浪費金錢。她的研究成果提交給了華盛頓的美國科學促進會。

越來越多的科學研究使用機器學習軟體來分析已經收集到的資料。從生物醫學研究到天文學等，這種現象發生在諸多學科領域。

這些資料集非常大，成本也很高。不過，阿朗博士說，他們得出的答案可能是不準確甚至是錯誤的，因為軟體識別的是隻存在於資料集中而非真實世界中的模式。

她說：“這些研究往往在另一個真正的大資料集出現時才會被發現是不準確的。有人用那些技術分析後嘆道：‘哦，我的天哪，這兩個研究的結果不一致。’”

她說：“人們現在普遍認識到科學領域存在可重複性危機。我敢說，這在很大程度上源於在科研中使用機器學習技術。”

科學中的“可重複性危機”是指另一組科學家做同樣的實驗時，研究成果無法再現的數量驚人。這意味著最初的結果是錯誤的。一項分析表明，在全世界開展的所有生物醫學研究中，多達85%的研究都是白費工夫。

這種危機愈演愈烈已20年，之所以會出現這種情況，是因為實驗的設計並不完善，無法確保科學家不會欺騙自己，看到他們希望看到的結果。

阿朗說，機器學習系統和大資料集的使用加速了這種危機。這是因為機器學習演算法是專門為在資料集當中尋找有趣的東西而開發的，因此當它們在大量的資料中搜索時，它們不可避免地就會找到一個模式。

她對英國廣播公司記者說：“問題是我們真的能相信那些發現嗎？”

“那些是真正能代表科學的真正發現嗎？它們能再現嗎？如果我們增加一個數據集，我們會在相同的資料集中得出同樣的科學發現或原理嗎？遺憾的是，答案往往是否定的。”

阿朗博士正在與休斯敦貝勒醫學院的一個生物醫學研究小組合作，以提高他們研究結果的可靠性。她正在開發下一代機器學習和統計技術，不僅可以篩選大量資料以便有所發現，還可以報告他們的結果的不確定程度及其可能的重複性。

她說：“收集那些龐大的資料集非常昂貴。我告訴科學家，我的研究可能使你需要更長時間才能發表研究成果，但最終你的研究結果將經得起時間的考驗。”

“這將為科學家節省資金，而且通過避開那些錯誤的可能方向來推進科學也很重要。”