輸入法行業迎來重大變革,百度輸入法借AI賦能先”聲“奪人
還記得科幻片《鋼鐵俠》中,託尼·史塔克的AI管家賈維斯嗎?只要託尼一聲呼喚,無論語速快慢,聲音大小,老賈的程式都能被迅速啟用,完美地執行託尼的各類語音指令。賈維斯這樣的語音識別與互動方式,未來終將出現在日常生活中。
1月16日,在百度輸入法“AI·新輸入 全感官輸入2.0”釋出會上,百度輸入法AI探索版正式亮相。作為百度AI技術的橋頭堡,百度輸入法正引領一場全感官輸入的革命,而過去在科幻片中出現的情景,如今都也正在變為現實。
百度高階副總裁王海峰博士表示,“目前輸入法產品主要應用於手機端,未來各種智慧裝置都將需要輸入、需要跟使用者互動,輸入法將發揮巨大作用。”
AI重塑各個行業,輸入法正迎來重大變革
誠如王海峰所言,輸入法本質上是一種人與機器交流的媒介。縱觀歷史,隨著技術的發展,人與機器交流的媒介和形式也在不斷變化升級。在過去75年裡,每10年就有一次人機互動的重大革新,人類對機器的操作,經歷了從物理手柄按鍵,到物理鍵盤滑鼠,再到觸控式螢幕的過程,而現在終於輪到了語音。
這種由技術升級帶來的互動方式改變,也正在引領著輸入法行業發生急劇的變化。隨著5G、雲端計算、大資料、人工智慧等新技術的不斷升級,手機輸入法行業無論在輸入方式、應用場景、行業生態方面都正在發生巨大變革。
從誕生之初到經過若干年發展至現在,輸入法對使用者的作用已經遠不止將使用者所思所想轉化成為文字那樣簡單。藉助AI技術的賦能,輸入法如今不僅能夠讀懂人類的語言,還能夠進一步識別人類的明令並做出相應的反饋,語音、表情、動作都將可以成為輸入方式。
輸入法能夠逐步實現全感官輸入,背後則歸功於強大的大資料技術和機器的深度學習能力。藉助對使用者的輸入習慣、聊天物件、對話情景等進行特徵分析,輸入法可以逐步深入理解使用者的意圖,真正做到懂每一個使用者。語音輸入則是這種全新互動方式的最直觀體現,作為人類交流、人機互動最自然的方式,它同樣也被認為是開啟人工智慧時代的起點。
作為一種新穎而又十分重要的輸入方式,語音輸入也正隨著語音識別效率的逐步提升,不斷提高使用者滲透率、提升使用者體驗,使使用者的表達更加智慧與互動。事實上,如果單看活躍使用者數,誰是中國輸入法市場老大可能還存在爭議,但單從語音輸入量這個維度來看,百度輸入法早已成為毫無爭議的市場第一,其語音輸入請求量遠超競爭對手搜狗輸入法,而百度輸入法實現質的突破背後則是語音識別技術。
站在變革的潮頭,百度輸入法為何能夠先「聲」奪人?
從語音輸入到全感官輸入,輸入法的技術門檻變得越來越高,AI技術正在成為其核心驅動力。在釋出會上,百度輸入法還宣佈,截至2018年底,百度輸入法月活躍人數已達5億,語音日均請求量峰值突破5.5億,AR表情使用次數超過1億,百度輸入法的厚積薄發並不是偶然。
1、多年的AI技術積累
作為百度AI技術率先落地的產品之一,百度輸入法凝聚了百度深耕多年的語音、影象、NLP和知識圖譜等AI能力——尤其是AI語音技術。早在 2012 年,百度就率先上線了基於 DNN 的語音識別模型,此後隨著技術的不斷迭代,每一年在語音識別技術上都有所進展。
去年也是在輸入法釋出會上,百度語音釋出的Deep Peak 2模型突破了沿用十幾年的傳統模型,進而得以更充分地發揮神經網路模型的引數優勢,大幅提升中英文、多種口音、多種風格(如朗讀、聊天、輕聲)混合輸入的識別準確率,聊天場景下的相對正確率較行業領先水平提升20%。
時隔一年,百度語音技術團隊再次實現重大技術創新。在今年的釋出會上,百度輸入法釋出了流式截斷多層注意力建模(SMLTA),這是中文線上語音識別歷史上的兩個重大突破:世界上首次實現了局部注意力建模識別精度超過全域性注意力模型;世界上第一次大規模部署線上語音互動注意力模型。這一技術能夠解決傳統Attention模型在識別中的時延性,以及因此導致的無法進行大規模線上語音實時互動的問題,並將線上語音識別精度提升了15%,超越行業最高水平15%。
2、對使用者體驗的精益求精
除了技術積累外,百度輸入法在使用者體驗上也是精益求精,這種對使用者體驗的打磨,讓昔日功能單一的手機輸入法,具備了“語音助手”,“效率工具”和“聊天伴侶”等多重身份。
百度輸入法不僅對使用者輸入場景進行鍼對性的優化,比如無論會場還是課堂,百度輸入法都可以通過輕聲識別能力降低語音輸入的尷尬;在“多人模式”場景下,藉助百度輸入法的聲紋識別技術可以自動區分發言人,大幅降低工作者後期處理的成本。
除此之外,百度輸入法還在探索更多輔助性功,進一步提升自己的產品吸引力,比如除了給予「語音識別」這個 AI 單點能力,百度輸入法的「AR 表情」還基於使用者的動作、表情捕捉資訊,而這也為文字輸入形式的人機互動提供了更多可能性。不難發現,正式百度在輸入領域對使用者需求全方位瞭解,讓百度輸入法藉此實現快速爆發式的增長。
3、百度輸入法不僅僅是工具
人工智慧時代輸入法會從工具走向服務,除了滿足文字輸入需求,還需要增加日常搜尋等多種服務,提升使用者黏性。這意味著輸入法需要形成打通語音互動與服務,形成語音到服務的閉環,而這正是百度最擅長的地方。
比如,百度推出的語音速記功能,這可以幫助記者進行實時記錄,從而提升了記者的工作效率,彌補了傳統手記在速度上的滯後也避免了事後需要聽打來整理錄音的不便。再比如,遊戲主播在直播過程中,也可利用百度輸入遊戲鍵盤開黑。不僅有極簡語音功能可令其節省打字時間,更有諸如快捷短語、和諧轉換等功能可為主播們進行定製化服務,豐富其遊戲體驗感 。
如今在很多場景中,百度輸入法都能發揮著重要的作用。百度中文輸入法負責人蔡玉婷表示,相較2016年,百度輸入法日均語音請求量增長了8倍,語音輸入法的場景也從聊天和搜尋拓展到遊戲、娛樂、購物等眾多場景。百度的AI技術正深入落地,其所加持的各種功能讓百度輸入法已不再僅僅是“輸入工具”。
輸入法正在成為百度AI技術落地的新樣本
輸入法如今對百度的重要性正越來越重要。在過去幾個季度的財報中,百度輸入法也連續被提及,語音輸入請求量更是被百度歸納進AI業務進展中。
語音輸入不僅讓百度輸入法實現了爆發式增長,更可以幫助百度獲取更多的語料資料,這反過來又能反哺百度語音識別技術的進化。從長遠來看,作為一種高頻使用場景,輸入法可以快速的普及語音輸入的人機互動方式,藉助AI技術的賦能實現更精準的需求識別,最終為智慧語音助理找到突破口。
事實上,百度最重要的人機對話系統DuerOS和百度輸入法的發展可以說一脈相承,同樣解決的都是互動問題,只不過一個的終端是智慧手機,另一個終端則是所以可搭載對話式作業系統的智慧硬體。百度輸入法的成功,無疑能夠給DuerOS起到很好的反哺作用。
百度輸入法的成功,實際上也是百度AI技術落地的樣本。眾多AI技術的加持,即讓百度輸入法得以實現彎道超車,也幫助百度開啟了人工智慧新時代大門的“鑰匙”。百度在語音、影象、NLP和知識圖譜等多個領域的AI技術都在百度輸入法上一一呈現,這何嘗又不是百度AI賦能傳統應用的一個案例。