尚德機構CEO劉通博:教育大資料的力量
10月31日,在鯨媒體主辦的“TEC2018教育創想大會”上,尚德機構CEO劉通博發表題為《教育大資料的力量》的演講。
劉通博 演講內容亮點:
- 資料生產比資料算力更重要;應用場景比資料演算法更重要;學習動機比學習效率更重要;無腦投入比衡量效益更重要。
以下為劉通博演講實錄:
大家好,感謝鯨媒體的平臺,我是尚德機構CEO,我是尚德機構最不會演講的高管,我估計也是教育圈裡面演講最差的高管。所以說我在接到這個任務的時候我就想過來講講乾貨,我講講尚德機構在AI領域的實踐,我們走過的坑,和我們的經驗分享,一共四點。
第一點資料生產比資料算力更重要。
這是什麼意思?大家都知道這次AI興起是三個要素,一個是算力,一個是演算法,一個是資料,這是大家聊得很久的。其實AI的整個架構幾十年一直都沒有變,理論是沒有任何進步的,其實主要是這三個要素的進步。在這三個要素裡面我們的觀點,資料生產比資料算力更重要。什麼意思?
我給大家看一個趨勢,如果我們把全球的資料生產量,每年的資料生產量拉條曲線,會發現它是條非常陡峭的指數曲線。在2020年指數曲線全球資料生產量大概44個ZB,一個ZB是1024個EB,一個EB是1024個TB,一個TB是1024個GB。你大概估一下,44個ZB大概是10的23次方,什麼概念,全球大概70到80億人口,每個人一年產生的資料量大概是十萬億的資料量。這是全球資料的總量。
我們估一下教育資料總量是多少,全球所有的教育行業,一年產生的資料量是幾個EB,我剛剛講一個ZB等於1024個EB,幾個EB是差一個數量級的。如果我們用教育行業資料總量除以全球產生的資料總量的話,可能千幾、幾萬,但是教育的GDP佔全世界GDP4%以上,所以這個發展速度是不平衡的。這會產生什麼問題?
大家知道這次AI的進步,比如說語義的識別,是網際網路產生海量的資料文字。語音識別因為電信和網際網路產生了海量語音文字。圖象識別是產生了海量的影象文字。積累資料在我們看來是整個教育行業非常非常重要的一件事情。而教育行業,網際網路化和IT化的程度不是那麼強的,就是對於一個非IT化和非網際網路化的教育機構其實它有很多資料,但是資料收集不上來,很少,很難收集。但是IT化了之後、網際網路之後可以收集更多。但是即使是網際網路化的企業在收集資料的時候,也是資料產生但是資料不處理,浪費很多資料,這是該與行業的現狀。當然教育行業有很多頭部企業,很好的一些細分場景,也有一些很好的資料,但總體來說是這個現狀。
我們應該怎麼辦?我覺得在AI化第一步就是我們如何去讓一個企業生產資料。我分享一下尚德機構怎麼做,尚德機構邏輯很簡單,我們用兩類課程加N個場景做的。尚德機構的特色我們是要教會一個人拿本科,教會一個人拿研究生,教會一個人拿職業資格證書,這是我們的套課。
我們在套課之外推出很重要的事情就是輕課。我們的輕課大家一般理解是學習化的過程,但是我們尚德機構是使用者和資料雙驅動的輕課。講一個很簡單的道理,我們看一個小時的長視訊產生有價值的資料量和看N多視訊的資料量和這個資料的價值量是成百上千個數據集,我們在輕課裡面產生了N多資料量,同時對使用者很好,因為它能加大使用者的黏性和給使用者產生很多其他的便利學習工具。
在這個情況下我們產生很多的資料,用這個資料去反哺眾課。我們能對使用者的很多行為預測,其實就是這一個邏輯,很簡單,我們積累那麼多的資料,資料是指數級產生,如果指數大於2.2,其實你一年的資料大於今年以前所有資料的總合。
我們積累這麼多的資料量,會不會一個巨頭、一個大廠商過來做幾個月就比我們資料量大了,我們優勢就沒有了。這就涉及到N多個場景,這就是我們的輕課場景,場景不可遷移,A場景推斷不出B場景,或者說A場景不能完全推斷出B場景,A場景只能部分推斷出B場景,我們通過這兩種課程N個場景方式積累了資料,這是我們自己做的。
第二是應用場景比資料演算法更重要。 這次AI演算法進步總結起來是這樣,其實它本質上是對強化學習演算法的改進,什麼是強化學習演算法呢?它其實是在兩個東西里面做平衡,一個是探索,機器到了一定路徑的時候我要找N多路徑,我要去探索走哪個路徑。另外一個是幹活,在一個路徑下面往前走的資料的概率。其實當路徑非常長了之後,其實每個節點都會產生N多的算力需求。這是以前我們的算力解決不了的問題。
其實蒙特卡羅法出現之後是把探索和幹活中間的差值給極大的優化了。這背後到底是什麼,如果所有路徑的概率密度函式都是不波動的,其實資料演算法沒有辦法優化,蒙特卡羅法其實是加速了密度函式的波動。是不是隻有演算法能夠解決這個問題呢?不是。我們場景也能解決這個問題,場景也能調優演算法。其實場景是另外一種演算法和另外一種資料節點,我們通過對場景的優化,來優化演算法。
我給大家舉個例子,尚德機構我們做一件什麼事情,我們叫做最短學習路徑。最短學習路徑是什麼意思,比如說我們一個考試,叫做自學考試,你每考過一門課可能有一千個知識點的學習,這一千個知識點我們會根據每個使用者行為找尋說你最應該學習300到400個知識點,因為這對使用者非常有幫助。但是我們尚德機構每年服務學生量是幾十萬人,你通過幾十萬人資料量你沒有辦法算出來,這個資料量非常少,你真的要做深度學習做神經網路不是幾十萬的場景,我們怎麼來調優?我們就不斷往資料裡面植入場景。
我們植入N多場景之後我們發現匹配演算法越來越好,到現在我們最優的人,以前他可能學習100個小時,或者50個小時,我們現在能夠節約70%的時間讓他只使用30%的時候,我們推出尚德機構的AI班,這對使用者來說是具有非常大的吸引力,就是我們的第二點應用場景比資料演算法更重要。
第三點我們叫做學習動機比學習效率更重要。 成人培訓和K12是不一樣,K12的孩子是全職做學生的,成人是兼職做學生,K12孩子有家長監督他的學習,有同學陪伴他的學習,有老師天天監督他學習。但是成人不是,成人跟學生之間是不一樣。其實我們在AI之外引導很多學習動機的事情,我們通過三個事情,第一個是一對一的班主任制度,第二個是線上社群,第三個是直播互動。我們通過這些事情給使用者創造了壓力場和動力場,通過這個壓力場和動力場極大的提高學生的學習時間。因為我們有一個公式叫做學習效率和學習時常乘以學習效率,剛剛我們講兩點AI是提高使用者學習效率,這點是提高使用者學習時常,這是AI之外的。
第四點叫做無腦投入比衡量效益更重要。 什麼意思呢,其實AI是個產業革命,我們看每次產業革命其實都是不順利的。比如說大航海,哥倫布剛到美洲的時候,他以為它是印度,不重要,更重要的是哥倫布一生去了四次美洲,沒有找回來金銀財寶,最後鬱鬱寡歡在西班牙孤獨的死在他的下房子裡面。真正美洲給到歐洲、西班牙反哺的時候是幾十年之後的金銀財寶的流入。第一臺紡織機出來的時候,其實紡織機的人工比它布的價值還要多,這是產業革命的宿命。
尚德機構的邏輯是什麼,我們有一個口語化叫做無腦投入比衡量效益更重要。我們有一千人的產品研發團隊,大大大於我們體量應該有的正常投入,我們一千人在我們的全公司八大系統裡面,每天源源不斷的為我們資料中心產生資料,就是尚德機構每天產生資料量在成人裡面遙遙領先。
講了四點最後給大家分享一句話,賈里尼克AI大師的一句話,叫做“我每開除一名語言學家,我的語音識別系統的效能就提高一點”。除開這句話的極端性,其實大家all in AI,把資源砸進去,終究會開花。謝謝大家。