科大訊飛副總裁李世鵬:AI至少在現在取代不了人
10月19日,第一屆河北國際工業設計周在雄安召開,科大訊飛集團副總裁、訊飛研究院聯席院長李世鵬發表演講。
要點如下:
1、探索人工智慧的兩種方式和人工智慧三部曲。
2、目前的人工智慧,實際上是人工的智慧。
3、科大訊飛在人工智慧領域的技術進展。
4、AI至少在現在取代不了人,是作為人的助手更好更有效率更準確的進行工作。
以下為演講實錄:
大家上午好,我今天站在這個舞臺上是代表科大訊飛講一下科大訊飛在人工智慧領域的一些思想。
我們知道人工智慧實際上是來勢凶猛,而且現在越來越熱,不管從投資屆、產業屆還是政府,都把人工智慧當成一個救星,而且我們知道各個國家也許都在基於人工智慧制定了很多戰略規劃,包括美國、中國。我們去年公佈了新一代人工智慧規劃,這件事充分表示了人工智慧在未來產業上的一些應用前景。這一點我要提到的是,人工智慧跟今天的設計有什麼關係呢?其實做設計的人大家都知道,尤其在跟計算機互動裡面有一個數據叫做自然互動,自然互動裡面核心就是智慧的互動,我們科大訊飛在語音上面做了很多事情也是為了幫助人們更好的擁抱各種計算技術。這是我們國家的一個三部曲,到2030年我們試圖在人工智慧領域佔領高地。到底今天的人工智慧是怎麼回事,是太多泡沫還是確實在改變我們的生活?下面就給大家介紹一下我們的思路,什麼叫人工智慧?人工智慧每個人的定義都不太一樣,這是我自己給的比較學術方面的定義。
什麼叫人工智慧?人工智慧對我來講不是計算方式的革命,以前的計算方式都是人去程式設計,計算機做事情,今天的人工智慧是各種資料自己學習做事情的方式。為什麼人工智慧最近熱,一是大資料、二是強有力的計算能力,包括雲端計算,還有一個深度學習演算法,這三個合在一起催生了今天的人工智慧的主流的一些方法。所有事情都不是偶然的,人工智慧發展到今天完全是科學技術發展到今天一個自然結果。
探索人工智慧有兩種方式,一種就是現在主流的根據深度學習跟大資料基礎的人工智慧方法,這是現在大部分應用裡面都在用的一個方法,而且很有效。另外是對人腦和認真科學的研究,這方面其實是剛剛起步,研究了很多年也沒有太多進展,最近可能會有一些比較重要的一些進展,但是遠遠沒達到使用的目的。
為什麼要從這兩個方面研究呢?我們今天大資料深度學習基於了人工智慧方法的話,有兩個致命的缺點,一是對大資料依賴,二是特別耗能,人腦要工作可能只需要二十瓦的能量,遠達不到人腦的計算中心至少要消耗100萬瓦的能量,所以從這方面來看對人腦的探索一直在不斷進行。
人工智慧三部曲,我們大家也知道,計算智慧、感知智慧、認知智慧。感知智慧包括今天的語音識別、人臉識別,包括翻譯都可以當做感知智慧,只不過把一種資訊從一種形式翻譯到另外一種形式,沒有增加新的資訊,今天大部分成功的人工智慧都是感知智慧。認知智慧是真正對內容進行了解,這裡面就是涉及到深層的,對內容進行了解之後你才能知道怎麼樣去進行推理,怎麼樣做一些決定,所以基於這樣,對我個人來說,人工智慧又分了五個層次,用中文講是通知、感知、認知、預知和決知。從大資料角度來講的話,一層比一層依賴資料更多,在頂層的話你可能要知道所有的資訊才能作出一些有價值的決定,預知這一層更多的是你向計算機發出指明之前計算機已經猜出來你要做什麼事情,這是在認知之後的更高層次,這跟我們今天做使用者互動設計也深度密切相關。
資料在人工智慧現在的框架裡是至關重要的,資料怎麼去獲得呢?現在很多公司,包括科大訊飛等其他公司,我們有個人工智慧資源部,資源部的目的就是在整合各能源資料輸送給人工智慧學習的引擎裡面去,去訓練我們的引擎。資料是一個瓶頸,怎麼樣把很多資料融合在一起這涉及到很多方面,包括怎麼拿過來用,怎麼合理用,這都是資料互聯的標準或者協議。
一致性、連續性,基於上下文、相容性、完整性、誰來控制資料,是使用者還是產生資料的企業還是利用資料的企業,這是很有意思的討論話題。AI的趨勢,實際上今天也提到過,AI今天無疑在各個方面給我們提供了很多便利,提高了很多工作效率,提高了我們識別物體的一些準確度,但是有一個最大的問題就是資料依賴性,所以今天很多傳統的在裝配線的一些工廠現在轉型做成資料標註工廠,資訊工廠以前一排一排的流水線,今天是一排一排的電腦,很多年輕人在裡面標註資料,尤其在貴州更明顯,所謂的人工智慧,真正說是人工的智慧。
現在確實是這樣,你給機器更多需要的資料,他就能取得更多的成績,這就帶來另外一個問題,在這個基於大資料的基礎上人工智慧方法總有它沒有遇到過的一些情況,那麼這個情況發生的話機器是沒法去控制的。前幾年特斯拉就出過幾個事故,特斯拉的設計本意是輔助駕駛,沒生成自動駕駛,但是人對AI的期望值太高了,所以就造成了一種現象,認為它是自動駕駛。如果有一些情況機器沒法去控制的話,人也沒法及時接過來,這就造成了很多問題。
基於小資料,像認知科學裡面的研究方向是現在也特別熱,因為我覺得繼人工智慧框架的變化最後我們有一個真正智慧系統關鍵的一個因素,另外對於資料的隱私保護,這裡面是另外一個問題了。就是說,包括科大訊飛提的一個概念,AI所有過程中人在環路里面,有什麼好處呢?今天把人工智慧神話了,不太可能,如果是機器在不工作的情況下怎麼樣很快接入?在機器不工作的情況下,人的接入能不能提供新的資料,怎麼優化AI的功能?在歐洲都提這個觀點,可能所有的AI系統裡面必須有一個開關,如果機器不按照人的思路去做的話,把開關一關他就會正常了,所以這是一個特別重要的一個課題。
這是我對人工智慧產業的分類,基本上分成基礎技術公司、水平技術工作、垂直應用公司,我覺得今天大部分在做第二種,第一種的話就是基礎技術把巨頭們霸佔,一些新公司都是在這個基礎上有市場的垂直應用。但垂直應用它的問題就跟我們前面提到的一樣,仍然依賴於大資料,所以你要進到一個垂直領域裡面你必須有大資料在後面支撐,資料從哪來,這是首先要考慮的問題。
下面給大家很簡單介紹一下科大訊飛在一些人工智慧裡面的一些技術進展。第一個是我們科大訊飛的合成,我們可以模仿任何人的語音去合成,我們可以講奧巴馬講的任何話,包括中文。另外就是語音識別,大家知道訊飛在語音識別上面也是國內頂尖的公司,我們的識別率在持續增長,在普通話裡面已經達到了98%以上,訊飛的轉寫系統在各個會議裡面充分應用,我們在2015年時第一次的轉寫準確率就已經超過了人類的轉寫員。還有一個方面,家裡很多老人他們一輩子不說普通話,怎麼能讓這些人擁抱網際網路、擁抱新技術呢?科大訊飛做了方言的語音識別。我們現在可以支援22種方言,很多方言我們達到了90%的準確率。另外在機器翻譯方面,機器翻譯到今天為止還是感知智慧方面的東西,對翻譯內容並不是很瞭解,將來的話一定是對語音內容進行了解。
去年2017年科大訊飛的機器人首次通過了中國醫生資格考試,總分600分,機器達到了460分,及格是360分。我們把這些技術也用到了各種場景裡面,同時我們也建造了一些生態或者平臺來幫助我們的客戶來擁抱AI技術,我們的理念是所有的要開放,包括硬體軟體、語音服務,還有一些資料平臺。我們的AIU平臺,2010年把語音技術放在雲上提供給成千上萬的客戶來進行開發,我們現在的開發團隊數已經達到了83萬,大概有50萬應用正在開發或者已經開發,大概有19億的終端裝置在用科大訊飛AI的服務。
硬體方面我們也有很多產品,包括我們最新的墨菲技術,在中國80%以上的機器人都用我們的產品,還有90%以上的家電都在用科大訊飛語音互動系統。實際上是這裡面很重要的一塊就是資料,資料有三方面,一是使用者資料的隱私保護,二是怎麼樣讓資料能夠充分融合起來,還有保證資料方的利益,這裡面我們把資料的控制性交換給使用者,通過一個數據銀行的概念把所有的東西都串聯起來了。資料最後的保護可能是區塊鏈最終的一個解決方案。
下面是一些具體的應用,我們利用科大訊飛在醫生機器人積累的智慧,幫助醫生髮現遺漏或者疏忽的東西,幫助一般醫生達到專家水平。在教育方面,我們在圖文識別裡面能把我們的學生的試卷或者作業通過掃描的方式轉升機器能讀懂的方式,能自動評價,並不是目的,而是通過評分的過程中能分析到學生到底錯在哪裡,同時我們把它影射到建的某個學科的知識圖譜上面,在這個知識圖譜不但一目瞭然發現這個學生在某個概念上不清楚,甚至說在這個概念不清楚是因為前幾個概念也是不清楚,在這樣一個個性化的知識圖譜的情況下,機器就可以幫助教師制定一些個性化的教育方案,還有給學生布置個性化的教育作業,以後學生作業不是千篇一律,只會選擇給學生布置那些並不熟悉的概念或者一些問題,讓他去練習,這樣的話學生的效率和老師的料率都會提高,同時分數大大提高,這個系統在全國有一萬兩千多個學校正在使用。
我們一個理念是,AI至少在現在取代不了人,是作為人的助手更好更有效率更準確的進行工作,我今天演講就到這裡,感謝大家!