一年拿10個世界冠軍！哈工大訊飛聯合實驗室重新整理SQuAD2.0新紀錄

科大訊飛谷歌 · 發表 2018-11-23 10:05:34

摘要：日前，在新揭曉的SQuAD2.0排行榜上，哈工大訊飛聯合實驗室團隊（HFL）從谷歌（Google AI）、阿里達摩院（Alibaba DAMO）、微軟亞洲研究院（Microsoft Research Asia）等業界翹楚中脫穎而出，獲得今年的第10個世界冠軍。 SQuAD2.0最...

日前，在新揭曉的SQuAD2.0排行榜上，哈工大訊飛聯合實驗室團隊（HFL）從谷歌（Google AI）、阿里達摩院（Alibaba DAMO）、微軟亞洲研究院（Microsoft Research Asia）等業界翹楚中脫穎而出，獲得今年的第10個世界冠軍。

SQuAD2.0最新榜單（截至2018.11.22）

據瞭解，SQuAD（Stanford Question Answering Dataset）是認知智慧行業內公認的機器閱讀理解領域的頂級水平測試，通過吸收來自維基百科的大量資料，SQuAD構建了一個包含十多萬問題的大規模機器閱讀理解資料集，這使得在這個資料集上訓練大規模複雜演算法成為可能。

本次參測的SQuAD2.0相比此前的SQuAD1.1，在基於篇章片段抽取的閱讀理解任務的基礎上進一步提高了解答難度，對機器閱讀理解模型提出了新的挑戰。

其難度主要在於在新版本資料集中加入了“不可回答的問題”，即參賽團隊所提交的機器閱讀理解模型需要通過閱讀篇章和問題，判斷所提出的問題是否能夠通過篇章內容進行回答，如果可以回答，則根據篇章中的內容作出答案；如果不可回答，則需要對題目進行拒答。

在本次提交的系統中，哈工大訊飛聯合實驗室所提交的模型在EM指標達到82.374，EM（Exact Match，即精準匹配率），預測答案和真實答案完全匹配，即機器給出的答案需要和人一樣才算正確）。

F1指標達到85.310，F1（F1-score，模糊匹配率），即將答案短語切成詞，與人類答案共同計算迴歸率和準確性，如果機器模型的答案並沒有完全匹配也可以得分，用以表示評測模型的整體效能）上，進一步縮小了機器與人類認知水平在該資料集上的效果差距。

微信公眾號搜尋"驅動之家"加關注，每日最新的手機、電腦、汽車、智慧硬體資訊可以讓你一手全掌握。推薦關注！【微信掃描下圖可直接關注

】