考拉閱讀趙梓淳:做中國式分級閱讀,讓孩子看到適合他的文字
由清科集團、投資界、新芽主辦的2018中國創業武林大會於2018年9月18-20日在北京香格里拉大酒店舉行。本屆大會設立包括人工智慧、企業服務、高階製造、新零售、泛娛樂、金融科技、醫療科技與器械等在內的16場行業視聽風暴,橫跨3大熱門領域、萬家精品專案以及百餘家參評機構與行業媒體的強力支援下,彙集各領域領先的知名投資人和創業者進行一年一度行業的靈思碰撞。
此外,國內首家投資維度的企業評選——V50風雲榜、新芽榜也將現場決出年度榜單。該榜單已陪伴創業者十三年,被譽為“行業投資風向標”。
現場,考拉閱讀創始人兼CEO趙梓淳發表了題為《AI賦能教育 給孩子適合的文字》的主題演講,以下為演講精華:
趙梓淳: 3603/" target="_blank" rel="nofollow,noindex">謝謝 主持人,考拉閱讀成立於2016年9月份,現在也是一家非常年輕的公司。從事的方向是中文分級閱讀的方向,大街上問一百個人可能有一個人會知道這個概念。我來解釋一下分級閱讀是什麼,有點類似於我們去買鞋,我們需要知道孩子腳的大小才能買到一雙匹配他的鞋。所以說其實孩子讀書也是一樣的道理,你給他讀太難的東西讀不懂,讀太簡單的東西學不到新的東西。怎麼解決這個問題?西方世界提出了一套完整的解決方案,他們可以把人的閱讀能力測出來,可以把英文的文字難度測出來,從而找到適合孩子成長的文字。
整個西方的分級閱讀體系從提出來大概有幾百年的時間,真的有量化的一套標準,現在也有了幾十年的時間。其實應用的也非常廣泛,現在能有90%以上的美國K12學校都在使用分級閱讀的產品或者分級閱讀圖書館,或者分級閱讀圖書。像在亞馬遜上買書背後都有像美國的一些指數,或者記憶分級的數等等。所以其實由於這樣廣泛的使用還有各種各樣的第三方研究機構去研究證明,確實分級閱讀可以非常有效的提升孩子的閱讀水平,達到1.5倍以上在同等的學習情況之下。
與此同時在中國分級閱讀到底是什麼樣的現狀?分級閱讀出現之前西方孩子在看書的時候,他們每個人看的第一本書是《聖經》,中國的孩子第一本書是《四書五經》,很可能孩子都不知道在讀什麼。在西方有了一些量化的分級閱讀標準之後,中國是一個什麼樣的現狀?中國的現狀基本上是一個按年級提煉書單,這個事情大家都知道會有一定的問題。我們從來不給孩子們買鞋的時候說買一雙五歲的和八歲的鞋,各種學習都是有自己的差異在。每個孩子具體的差異非常大。
就因為現在落後分級閱讀的劇變導致了一系列的問題,第一個問題就是其實內容生產上,沒有一套分級閱讀的標準去指揮,我們的內容生產者如何生產內容,基本上是憑心情了。我覺得寫的書孩子能看懂,那我就寫。我覺得這個書應該是八歲小孩看的,我就讓八歲小孩去看。八歲的小孩在中關村二小上學的學生和在甘肅農村的孩子學習水平和閱讀水平一定是不一樣的。這樣粗獷的分級方式導致了非常嚴重的後果,就是中國孩子不愛讀書,太多的中國孩子一提起書就腦袋疼。家裡買了特別多的書就是一本也不碰,其實閱讀是一個非常美妙的體驗,只要讓孩子嚐到其中的甜頭。
就像我們打遊戲一樣,我是特別不喜歡打遊戲的人,不是我自己有多大的自制力,而是我打遊戲特別爛,一打就被別人虐,體會不到樂趣。孩子學習是一樣的道理,你讓孩子學習的過程中一直受挫就一定不想學習了,他都不想碰。分級閱讀解決的就是這個問題,無論你這個孩子的年齡,找到你的真實實力,去給你推適合你的內容。
中國一直以來沒有做出自己分級閱讀的標準,根本原因在於中文確實太難了。不同於英歐語系的系統,中文的語法表達非常靈活,語義紛雜。例如中國的組成單位是漢族,有三千五百個常用漢字,英文的組成單位是二十多個字母,複雜構成的稀缺性導致分析中文的時候要用龐大的力量。英文其實是有天然的分詞在的,中文的標點符號都是後來引進進來的。例如說量子效應,這個詞到底怎麼分,不會影響百度這樣做搜尋引擎的公司,會影響孩子們的理解難度。所以其實中文和英文由於語法結構的不同,由於語言的語系不同,導致兩者的難度差別是巨大的。舉個不恰當的例子,有點類似於國際象棋和圍棋難度的類比,我們都知道國際象棋是很多年前的深藍戰勝了大師,深藍是一個超級計算機。
怎麼解決中文的問題,確實有這麼大的難度,英文解決的方法是從詞頻和句長判斷難度。中文講實話並不能這麼粗的分,例如非洲鬣狗這個詞,鬣這個字在中文裡出現的頻率很低,很多孩子不知道怎麼讀。你如果單純的因為它的詞頻比較低就認為它的詞很難,在中文並不適用。英文的句子越長,句子的理解難度越高,需要記憶能力強,語法很複雜。中文很可能句子短很難理解,比如道阻且長。中英文的不同一樣的解決問題,英文解決這個方法就是提取兩個特徵,然後用一些數學的表達,數學公式去解決問題。
考拉閱讀階段性的用五個維度提取上百個特徵,然後錄入系統,這上面寫了一些阿爾法狗的類別,類似於阿爾法狗,我們精標了之後兩千萬字的非頻率語意庫,輸出的是字詞之間的結構,訓練的是根植於網路,現在已經有了大量使用者資料,通過網路真正得到文字的難度值。
所以說其實做中文的分級閱讀就因為跟英文極大的差異,導致了極大的難度。今天考拉能做這個事情也得益於時代的發展,例如於阿爾法狗也得益於現在計算力的提高,一些深度學習的技術突破,才能有今天阿爾法狗的誕生,這是一樣的道理。
另外是要測人,測中文的文字是可以測。怎麼樣把人的能力測出來,每個人都高考過,中國的語文考試,我們知道今年高考考了130分,明年考了110分,並不代表130分比110分能力差。中國的語文考試沒有什麼大量的探究,其實就像托福考試不一樣,托福考試在座各位很多考過,托福考試這次你得90分,下次得92分,是可以比較的。怎麼構建中國孩子的一個閱讀能力的測量,其實也需要大量的人力跟物力。我們公司剛開始成立到現在,投入了大概幾百萬線下測孩子,現在從中國一線城市到四線城市大概測了七十萬個孩子,做出了中國學生閱讀能力最大的一份量表。這是我們的一個題目,這道題考察的是資訊提取能力,這是一道樣題。
接下來有了底層演算法之後,該怎麼構建我們的產品,這是考拉一些產品的截圖。有點類似於像今日頭條,今日頭條是根據你的閱讀興趣推你感興趣的內容,考拉閱讀是根據每個孩子的閱讀能力,找到孩子閱讀的範圍,把相應的範圍內的文字,無論是短文,還是中長文,還是書推薦給孩子,讓孩子在社交化的分級閱讀去學習。
公司成立了將近兩年時間了,前一年半的時間基本上都在做剛才的事情,考拉也很少出來發聲,因為我們其實做的還不夠。今年3月份開始做大密度的推廣,現在已經跟甘肅省、吉林省、山西省、河北省、山東省五省聯動,使用者增長的比較快,大概月活增長了兩三百倍。每天每個小朋友在平臺上消費大概十分鐘讀書或者聽書。可能這個不太有直觀的概念,從今年3月份到今年8月份,我們孩子一共在我們的平臺上閱讀了多少字,一共935億字,相當於三百多個孩子一共讀了十三萬本的《紅樓夢》。
大家一直在講AI,AI最大的價值是能解決教育供給不公平的問題。我們測量的時候發現這樣的問題非常嚴重。我們做一到四線城市閱讀能力閱讀採集的時候發現,中關村三年級的孩子可以達到五年級的閱讀能力,但像甘肅省的鎮,孩子基本上都是留守兒童,爸媽不在身邊,爺爺奶奶帶著,家裡沒有書,三年級的孩子平均閱讀能力就是一年級上下。
其實閱讀這件事情在我們看來是一件挺公平的事情,例如說現在有很多教育部門從業者在做網球培訓,馬術培訓,還有程式設計等等。閱讀每個人拿一本書就可以開展了,誰沒有一本書呢。發現這個事件真的很觸目驚心,差距真的很大。可以看到隨著年級越高,這是我們的報告接下來可能會發布。年級越高一二線和鄉村的差距越來越大,這麼一件簡單的事情,看起來很公平大家都可以完成的事情,差距非常大。
其實這也是為什麼考拉會選擇第一個切入省份就是甘肅省,因為甘肅省確實相對其他華東還有沿海的省份,他的教育差距會比較大。考拉全平臺上現在大概有將近九十萬個四線及以下的城市,真的讓這些孩子可以每天消費大量的內容,每天學習。這些孩子每天來到考拉的平臺上幹嗎?測試他的能力,根據他的閱讀能力給他推相應適合的內容,讓他愛上閱讀,讓他知道這個世界還有更大的世界,而不是自己的鄉村,而不是自己的那一方天地。這是考拉的意義。
著名作家曾經說過這麼一句話,教育應該是一束光,推開它應該滿是陽光和鮮花。今天在座都是教育者和創投的人士,希望我們每個人通過自己的努力,無論從事AI教育還是網際網路教育還是傳統教育,每個人做到這一點真正能夠給孩子帶來陽光和鮮花,給孩子帶來快樂,謝謝大家!