【GET2018】馳聲科技沈來信:AI+K12語言教育還有多少想象空間?
芥末堆 小筱 11月14日 報道
11月14日,在以“碰撞·演變”為主題的GET2018教育科技大會“K12教育科技企業的‘軍備競賽’ ”分論壇上,馳聲科技首席科學家沈來信發表了題為《AI+K12語言教育,還有多少想象空間》的主題演講。
沈來信從智慧語音技術如何能更好的服務K12的教學場景?AI在K12的語言教育裡面除了評測還能做什麼等問題進行分析,並分享了馳聲科技未來的打算。
以下是演講內容實錄:
人工智慧這兩年非常的火熱,但是今年下半年開始有一點降溫。大家開始理性的思考,應該講人工智慧還是像前面幾位嘉賓講的一樣,它僅僅是一個技術,它應該是沒有能力取代、顛覆我們的教育的。所以我們要根據我們的內容和技術結合在一起,形成一個很好的產品。
馳聲是專注於語音評測的,從2008年開始到現在將近有十年的經歷了。我們從2007年的中文的發音能力評測到2008年無外掛聲調的評測以及英文發音能力評估,到後面的音素、重音、單詞和句子等等。一直到2013年的時候有相應的發音能力評估以及2015年支援微信和英語表達能力的評估,主要是立足於口語這一塊的評測和反饋。
目前我們服務的客戶有132個國家和地區,每年會有500萬以上小時的錄音資料,800萬臺的離線評測的PC、手機、ipad的離線評測。我們服務的客戶包括像培訓行業,出版行業,還有網際網路智慧裝置、智慧軟體以及教育、政府機構。
我們一直在思考,智慧語音技術如何能更好的服務K12的教學場景,所以這裡面我們定義了三個場景:正式考試環境下如何根據人工定標的資料,它的標準進行自動的評分,我們提供了一個AMS,目前已經服務了多個地區;在考輔裡面,有備考和模考的環境,要輔助校園的測試,提供了一個CESE的評測和考試的標準;在課外,包括學生在家庭裡自學進行的一些單詞、句子、段落、發音、能力的評估。
AI在K12的語言教育裡面除了評測還能做什麼?目前我們可以進行打分,效能也是超越了人工的評分,在業界同行裡面具有相當的競爭層次。在評測的基礎上還能做什麼呢?在客戶使用過程中我們發現,大量使用者發音的時候總是不斷的犯錯,有的學生反饋“我的孩子都快讀哭了還讀不到滿分”;有的孩子說“今天讀不到一百分就不睡覺”,因此不斷的讀,但是不斷的犯同樣的錯誤。因此我們提出了這樣一個路線,不光提供評分的情況,而且要給它進行診斷,發現他在哪個位置發生了錯誤,以及如何糾正,給出一個反饋和指導,我們根據這個路線進行研發技術和產品,真正做到了以評促教、以評促學。
我們在去年一年主要在兩個方面有開創性的成果,完成了從評測到診斷,到指導反饋的閉環,釋出了兩項開創性的技術。
發音糾錯檢錯的功能。目前我們市場上有些可以替換的錯誤,有讀錯的檢測,這也是有產品的,但是有些多讀和漏讀的錯誤現在是沒辦法檢測出來的。因此我們構建了一個擴充套件網路的形式,可以支援任意單詞的音素級插入、刪除和替換錯誤。我們這種網路是在lab,三個音素的情況下,任何一個音素的前後都可以任意的插入也可以刪除,而且也可以替換這三個錯誤。目前評分的效能是比較高的。
這是一個音素級的分析,match如果發音錯誤會有相應的提示,有相應的指導,怎麼樣正確的發音。整個評分會更加準確,以擴充套件網路的形式;診斷更細緻,在音素級別發現學生的發音規律;指導更有效,可以對他有針對性的進行指導,特別是易混淆音的發現,讓使用者不斷的練習,提高在這方面的辨別能力;相應的報告進行呈現,對他進行綜合能力的評估。這是英文發音糾錯的閉環情況。
第二個是我們在評分的時候,在考試系統裡和校園版的考輔系統裡面發現,以前都是通過定標資料進行黑盒的評分,用一個邏輯迴歸的方式或者是SVR的方式擬合一個分數,但是並不清楚分數整個擬合的過程。因為我們對於很開放型的題目,從總分裡面分出了四個維度,包括內容的得分、發音的得分、語法的得分、流利度的得分。在內容得分裡面包含了說的內容、主題、關鍵詞等進行相似度的計算。發音會根據發音的特徵,提取他的特徵,經過一個擬合的公式,擬合出他的發音來。
得到這四個維度以後我們也不再用以前的,直接是現象級的方式擬合了。用(樂貝格)的方式進行公式化的擬合,讓擬合方式更加透明。目前這個效能遠遠高於以前的基於特徵直接擬合總分的情況。這個好處是不僅效能提升了,而且為後期打下了一個伏筆。目前我們在這四個維度上都在繼續往下做,對應著診斷和反饋,你的語法錯在什麼位置、什麼型別,應該糾正成什麼樣的型別。
這是第二個,裡面結合了研發的一些技術,詞嵌入技術、句法解析、GOP演算法等等。目前支援開放題型包括口語作文、看圖說話、翻譯等等。最主要的特點是自適應的評分標準。不同的地區對這四個維度有不同的側重點,根據定標資料可以學習到在每個維度上的特徵、每個維度上的權重。根據這個權重擬合出一個比較適合該地區的評分標準,所以整個擬合過程會更加透明。
我們在語音識別和評測的基礎上會做很多基礎研究,會做一些聲學模型的改進。主要是為了識別更加準確,這裡面使用了深度學習的架構,包括DNN、TDNN、感測識網路、LSTM、GRU等等,我們增加了一些門機制、注意力網路等等,去提升它的效能,這是一個長期要做的工作。
第二個是在遷移學習的應用。我們在一個新的地區,在不同的應用環境下如何能夠快速的做當地基於少量標註資料的聲學模型的自適應呢?就用遷移學習的方式完成,用權重遷移和模型遷移,可以很快速的在一個新地區完成語音識別的部署。
第三個是資料聲學的篩選,我們以前需要標資料,現在不需要標資料了,它的文字都不再標了。採用資料篩選的方式進行處理,這裡會基於基於置信度和解碼網路的方式篩選資料。前期我們在某地區有三千小時的考試資料,通過這個網路選擇了900小時的很高質量的資料可以完成該地區的升學模型的自訓練,可以快速的匹配我們的產品。
第四個我們也會做一些工作,包括音標和音素的自動生成,有些產品會需要根據考生的文字自動的生成對應的音素序列,還有出版社希望所有的單詞給出它的音標序列。目前採用的是G2P的模型,給出一個文字,自動的這兩方面的生成。這是第三個方面的一些研究。
在最後我們分享一點AI+K12的語言教育,最終我們未來還有哪些打算?通用識別這一塊會繼續加強.這裡會擴充套件到一個智慧問答,在各種環境下我們希望做一種智慧問答的場景.這裡面就涉及到通用識別的情況;評分裡面有答案的自動生成、自動擴充套件提高評分效能。
語音的自動分類,我們期望基於不同的地區、不同的人群自適應一個評分標準,大中小城市他們之間的評分標準還是略有差異的,我們希望它在本地區進行同地區的評比、評測、能力的評估。
虛擬教師的情況,啟用一個一對一的教學環境,在對話的過程中進行發音的、語法的、流利度等方面的指導和反饋,讓學生進行自由的互動。特別是基於影象、基於語音、自然語言的三種方式。像作業幫手一樣,幫助學生進行課外的輔導和智慧問答。
我們希望擴充套件自適應學習的架構,目前我們基於知識圖譜做各個年級,學生在詞彙、語法、聽力、閱讀和寫作等五個維度上所具有的能力,然後進行橫向和縱向的擴充套件。
總的來說,還是我們前面說的,人工智慧目前也是發展的比較快速,在影象、語音、自然語言上都有很大的突破,因此它會給我們帶來很大的動力。但是我們一直認為,內容是更加接近於我們教育的,讓技術成為內容的好幫手,形成一個好的產品去提高學生的個性化學習以及自適應學習的基於興趣的、基於單體的學習機制,讓我們開發出比較適應於學生的個性化方式的一種產品出來。我們也希望技術、產品和內容能夠很好的結合,最後形成一個相應的結果。、
ofollow,noindex">點此 檢視所有嘉賓精彩分享
1、本文是芥末堆網原創文章,轉載可點選芥末堆內容合作 瞭解詳情,未經授權拒絕一切形式轉載,違者必究;
2、芥末堆不接受通過公關費、車馬費等任何形式釋出失實文章,只呈現有價值的內容給讀者;
3、如果你也從事教育,並希望被芥末堆報道,請您 填寫資訊 告訴我們。
來源: 芥末堆