出門問問李志飛:科技創新的本質是什麼? | IF19
2010 年,在谷歌翻譯工作的李志飛,想要開發一款離線翻譯系統,解決沒有網路的情況下的翻譯問題。將想法告訴他的德國上司——一名優秀的工程師後,李志飛清楚地記著,上司拿出了自己的手機對他說,手機開啟都那麼慢,還想要將模型龐大的翻譯系統搬到手機上去,怎麼可能呢?這是不可能的,是「Useless」的。雖然遭受到了上司的否定,但李志飛最終還是將系統做出來,併成功上線了,後來他曾收到感謝信,這個系統在關鍵時刻甚至救過人的命,那也是他在谷歌最重要的貢獻。
科技創新的開始非常艱難,往往會遭遇到否定或被認為毫無必要,創新的過程同樣非常複雜,創新的想法從提出到落地,是演算法、軟體、硬體、產品的結合,可能是跨工種、跨部門,甚至是跨公司的。不久前,出門問問與高通在 CES 上共同釋出了用於無線耳機的智慧語音演算法 TicHear,最初李志飛認為幾個演算法工程師就可以搞定,但最後卻是從演算法工程師到硬體工程師、天線工程師、結構工程師、UI 工程師等五六十人,花了兩個月才完成。
而科技創新的進步卻是漸進式的,2015 年出門問問開始研發智慧手錶 TicWatch,目前最新的產品,已經可以做到最高 50 米防水、雙層屏、單次充電續航 5-7 天、4G 通訊和精準定位。但這些功能都是逐漸實現的,每一代進行部分的改進,只要放到長期,才能清楚體現科技創新的價值。即便如此,科技創新的成功率依舊很低,在谷歌的工作經歷讓李志飛很清楚的瞭解,以谷歌的科技實力,同樣有大量失敗的專案。但最後,付出瞭如此巨大的代價,科技跟隨者可能會以少得多的成本逆向工程做出類似的產品出來。在谷歌翻譯團隊辦公室旁邊,就是谷歌早期無人駕駛團隊,從 2008 年到 2015 年,他們先後投入 11 億美元才做出了可以進行道路測試的無人駕駛系統,而在幾年後,跟隨者只需半年就可以做到類似的成果。
「科技創新者因為相信而去看,科技跟隨者因為看到而相信。」但科技創新成功帶來的收益是巨大的。谷歌、蘋果、高通等巨頭,同樣是重視科技創新的公司。具體到李志飛所從事的 AI 行業,AI 科技創新主要包括 AI 核心演算法的創新、AI 工程的創新和 AI 產品的創新。對創業公司來說,科技創新絕大多數是由產品的需求催生的,將創新與產品相結合。比如出門問問與大眾汽車有一個合資公司,專門研發車內的語音互動系統,也做出了一款車載離線語音系統,按照大眾汽車的要求,CPU 佔用率不能超過 20%,記憶體不能超過 500MB,但卻要能識別規模 600 萬的地址以及餐廳、咖啡廳等實體名字,準確率要超過 90% 以上。這個幾乎矛盾的任務讓出門問問花費了一年的時間,數十名演算法工程師和普通工程師才優化完成。李志飛認為,中國的資料量、使用者量以及工程師資源都很豐富,未來幾年 AI 演算法還需要繼續推進。在這個過程中,AI 科技創新要避開騎牆主義、拿來主義、功利主義、彎道超車等攔路虎,只有明確方向後第一時間就開始研究和嘗試,才能最大獲得科技創新的收益,以及獲得競爭者和合作夥伴的認同。
以下是 出門問問 創始人 & CEO 李志飛 在 2019 極客公園創新大會上的演講內容(略有編輯):
大家好,我今天很高興跟大家分享「AI 科技創新的本質是什麼」。這個問題很難去講,因為這是一個綜合性的,甚至帶一點哲學的問題。
所以,我更多是從我個人的一些經歷,包括以前在 Google 的經歷,以及在自己做出門問問的經歷,跟大家分享一些比較隨機的想法,這肯定不是一個非常系統性的一個研究,或者報告。
首先,「創新」這個詞可能很多地方都在用,每個人的理解都不太一樣,比如說,創新、創造到底是問題驅動還是技術驅動,這有很多不一樣的地方。這裡,我引用了 Wikipedia 對創新定義的第一句話:A new idea, creative thoughts, new imagination in form of device or method.
什麼意思呢?創新,是一個新的 idea,是創造性的想法,或者說是一種新的想象力,最後它的形式是一個裝置或者是一個方法。首先,這個事情本身得是一個新的,但在後半句,它說了另外一個角度,很多的時候,創新同時也會被認為它是對已有的一個問題,一個新的解決方法,或者說更好的解決方法。這裡列了一些中文相關的關鍵詞,想法、創新、突破、改變、創造、進步、風險、發現。
科技創新一般有幾種類別,有的是演算法的創新,有的是技術、產品、模式的創新。演算法的創新,比如說最近大家都非常清楚的深度學習。這首先就是加拿大一個教授,他自己研究了好多年,好多人都不認同他這一套做法,但是最後他終於在一些具體的應用上面,比如說,在語音識別上有了一個很大的突破。所以,它一下子變成了大家今天都接受的演算法模式。
技術創新,自動駕駛是特別典型的,它跟演算法創新可能不太一樣,它是一個綜合性的,系統級別的。演算法創新像剛剛講的教授的事例,他可能就一個人帶了幾個學生,十幾年一直幹一個事情。這其實是在一個比較封閉、獨立的環境下,可以做出來的創新。但是,自動駕駛是系統級別的,這個需要成千上萬的人去協同才能做出來的技術上的創新。
說到產品的創新,iPhone 是一個特別著名的例子。當它出現的時候,這個手機跟很多的手機確實不太一樣。
模式創新是中國特別擅長的,尤其是在過去 5、6 年的移動網際網路,很多都屬於模式創新,比如共享經濟。
對於一個科技企業來說,畢竟它是企業,所以商業模式非常重要,它不像學校。這種創新跟產品的關係到底是什麼?
這裡我列了幾個不同的類別。最常見的創新,可能就是已經有一個產品了,通過產品有一個需求,然後去做一個創新的演算法。比如說 YouTube 鑑黃的演算法,就是因為有了這麼一個需求,這個演算法功能才會被人琢磨。在 Google,有很多的產品部門,同時也有非常厲害的 PhD,他們不是純碼農、工程師,他們有很多自己的想法,而且對於理論、演算法非常理解。雖然,機器人也是在產品部門,不是在研究部門,但是可以做出這樣的創新。
另外一種創新,可能就是倒過來的,今天可能還沒有這樣的產品,但是由於你在技術上有很大的突破,因為技術的突破然後創造出了一個新的產品,比如說 Google Translate、Google Voice Search。這是一個非常典型的例子。
這些都是在學術界研究了很久的,以前更多是在學術界或者是美國的國防機構應用,但是 Google 確實做了很大的創新,就是把一個偏學術的東西,變成了一個大規模普遍性的應用。所有的文字都可以翻譯,所有使用者能想像到的詞都會翻譯,而且速度也非常快,比如說一篇文章放進去,0.2 秒就要出來結果,還要支援所有的語言。
我認為這是 Google 的翻譯變成大的普世性系統的巨大創新,有了這個創新以後,再把它變成一個產品(Google Translate 以及後面的 app),這個需要對技術很強的判斷能力、研發能力,才能做技術驅動的創新。
第三類的創新,不是來自單一產品,而是來自於很多產品的通用需求,比如說 MapReduce、Google File Systems、Bigtable,這基本上是早期雲端計算的三架馬車。
大家知道 Hadoop 是雅虎搞的開源雲端計算框架系統,基本上是基於這三篇論文,然後把它變成一個開源的系統。這種創新是 Google 做 Google 搜尋、視訊搜尋、新聞搜尋時,發現以前的關係型的資料庫、傳統的檔案系統,不太適合海量資料的需求,所以才有了這三篇非常經典的論文。
對於很多公司來說,這很難做到,因為可能你的產品比較單一、資料量沒有那麼大,所以可能你連這個需求都沒有,因為以前學術界想了很久從來沒有想到要做這麼一個事情。
關於這幾種創新,其實各種公司是不一樣的,比如說出門問問這樣的公司,後面兩者可能就比較難一點,包括中國絕大部分的創新都是第一種。
回到出門問問的創新上,我們需要生成、有商業模式,但是我們又是一個科技公司,我們希望能夠把創新和產品有效結合起來,而不僅僅只是產品公司、軟體公司、硬體公司。
下面我說一下我們的創新和產品的關係,剛才說到更多是因為我們已經有一個產品了,產品需求導致我們想要做些創新來滿足這個需求。
比如說,車載的離線語音系統就是這麼一個需求,我們和大眾汽車有一個合資公司,專門做車的語音互動,在這個過程中他們提出了一個需求,開車的過程中由於訊號不一定好,這時需要在沒有網路的情況下,可以有一個語音系統。可能大家覺得這個沒什麼,因為已經有很多離線語音識別系統,但是它的要求特別嚴格。比如,希望 CPU 佔用率不能超過 20%,記憶體不能超過 500MB,你要識別規模是 600 萬的地址以及餐廳名、咖啡廳名字等各種實體,準確率要超過 90% 以上,其實這幾個指標都是矛盾的。
在這種情況下,我們怎麼設計一個離線語音互動系統,能夠滿足這種需求呢?我們花了整整一年的時間,幾十個演算法工程師和普通工程師把它進行優化,做出了這麼一個系統。這就是非常典型的產品有需求,然後問題特別難,需要做研究、演算法、工程,最後一起把它完成了。
第二個例子是 TicWatch 雙層屏,也是一個創新,可穿戴最大的問題是功耗的問題,可能很多手錶一天要充一次,這是很大的痛點。我們做了一個創新就是所謂的「雙層屏」(一個是低功耗的黑白屏,一個是高功耗的彩色屏),這個創新也特別複雜,因為其中涉及到兩塊螢幕和兩個作業系統,甚至還有兩個 CPU,主 CPU 驅動彩色的屏,副 CPU 驅動黑白的螢幕。
除了硬體本身以外,作業系統也要做一個智慧切換,要智慧切換黑白屏和彩色屏,非 Wear OS 系統和 Wear OS 系統,所以這個創新是從產品的需求上,整合很多人把這個東西做成。
最後一個例子就是 Tickle 撓撓,無論是智慧手錶,還是智慧無線耳機,很大的問題是互動特別不方便,因為沒有一個大的螢幕,也沒有鍵盤。這個時候怎麼能很快、很方便的操作呢?像我們的撓撓,在耳機上,你往上一滑,音量可以增大,往下一滑,音量可以減小,別人打電話來時雙擊可以接聽,長按可以不接,放音樂時雙擊可以進入下一首,這種創新是因為互動方式的需求而做出來的,同樣需要軟體、硬體、演算法、感測器等綜合的處理,才能做出這樣的創新。
接下來講一下我看到的一些創新的規律和特點。
首先,創新的代價是非常高昂的。比如說一個科技創新者花 100 塊錢幹成了一件事情,但是一個跟隨者可能只需花 1 塊錢就幹成了,這個也是導致很多公司不願意創新的原因。
比如說 Google 無人駕駛,我在 Google 時,Google 無人駕駛的團隊和 Google Translate 剛好在同一層樓。他們在 2008 年、2009 年就開始幹這個事情了。早期 Google 可能花了 10 幾億美金做一個系統,才能夠在路上測試一下,跑一跑,這是早期的創新代價。但是在今天,我經常看到一個公司融了 2000 萬美金,過了 6 個月就聲稱可以在路上跑了,而事實上是真的可以跑的。
這個就是早期創新者和跟隨者之間代價的差別,早期花 10 億美金,找了世界上最牛×的博士,可能試了很多次都不行,最後終於可以跑起來,但是今天過了三四年以後,由於很多專利、文章都已經出來了,大家看到這個結果是可行的,知道了怎麼做。基本上我們可以反向工程,知道這個東西可行,倒過來就可以找到一條路徑,而不是完全在黑暗的環境裡,在這裡試一下,發現不行可能又得回到起點,然後再試一下,再不行就又得回到起點,是這麼一個過程。
所以,創新的代價非常高昂,很多科技創新者真的是因為自己對這個東西有興趣,而且他相信這個東西,所以他才會去琢磨和探索,但是跟隨者更多可能是看到了別人的結果,反向工程,最後將成功實現。
科技創新的啟動也非常艱難。因為你做的是一個新的東西、很難的東西,所以任何人和別人講這個時,別人第一反應就是這個有什麼用,因為今天不是這樣的,為什麼這麼做呢?另外,他們可能覺得這個做不到,或者說不可能。
舉一個我自己的例子,我在 Google 最主要的貢獻是做了一個 Google 的離線翻譯系統(2010 年)。2010 年,全球漫遊還沒有那麼好,當你去法國旅遊時沒有漫遊、網路,但這時卻是你最需要用到 Translation 的一個地方,因為你不懂法文。所以,當時我想做的一個系統就是當你出去旅遊之前,你能在家裡把翻譯模型下載在手機上,出去時沒有網路還可以做翻譯。
我把這個想法和老闆說時(他是一個德國人,他是全世界非常厲害的工程師、科學家),他拿出了 Google 在 2010 年推出的第一代 Nexus 手機,他說你看我這個手機連開啟都那麼慢,你還希望用 Google Translate 後臺用幾千臺機器做計算,模型特別大的系統搬到手機上,這個怎麼可能呢?這是他當時給我的一個反饋。
雖然他是我的老闆,但是由於 Google 的創新文化,我可以隨便幹什麼,最後我還是把這個系統做出來了,而且上線了。所以,無論是普通人還是對科技、研究都很有耐心的人他都有可能會牴觸這種新的想法。
而創新的過程也是非常複雜的,因為很多的時候一些想法,就是剛才說演算法的創新比較單一,但是很多時候創新是組合式的創新,就是演算法、軟體、硬體、產品結合起來這種創新,才是真正使用者能夠感知到的。所以,很多時候創新可能是跨工種、跨部門,甚至有一些時候是跨公司的。
最近,在 CES 上,我們跟高通一起釋出了一個新的演算法 TicHear,希望在我們的無線耳機上面,能夠直接語音喚醒,不需要按鍵盤、開啟手機,可以直接喚醒,然後可以做語音的對話。
大家可能覺得這也沒什麼,因為智慧音箱今天都可以喚醒、語音互動。這個的難點在於,因為智慧的無線耳機,CPU 的計算能力特別低。這個時候你怎麼能做出一套算法系統,能夠在一個計算能力等等都特別小的情況下,喚醒然後做語音互動。
這個創新首先我認為可能聽起來應該兩三個人就搞定了,我拉了一個微信群,但是後來我發這個群裡面的人越來越多,到最後有 50、60 號人在這個群裡面,然後花了兩個月把這個事情搞定。
我認為演算法工程師搞一搞就行了,後來發現還需要硬體工程師、天線工程師、結構工程師,因為這是一個新產品,得不斷做修改,然後最後除了做演算法優化以外,訊號處理、語音識別,還要呈現給使用者。這過程還需要 UI 工程師、各種各樣的工程師。最後才做出來一個從使用者角度來說非常「常見」的事情,所以創新的過程是非常非常複雜的。
而且前面說啟動難,然後過程又複雜,而且創新很多的時候成功率非常低。大家可以把創新想象成一個漏斗模型,你可能有 1000 個想法,最後有 10 個是你真正把它做出來產品,最後一個你可能商業化,而且能夠得到成功的。
比如說,Google 很典型的,前一陣子有一張圖說 Google 產品的墳墓,就是各種各樣的產品,他其實開發了無數的產品,最後都沒有成功,我認為這些產品都是創新。
其實大家也可以想象一下,移動網際網路就是這麼一個過程,那麼多的 app,我認為都是創新,因為一定是在新場景下解決新問題,大家想象一下在移動網際網路時代,這麼多 app 到今天存活下來,而且商業化成功的,可能真的就是幾個而已。這是創新的成功率。
科技創新是漸進式的,很多的媒體或者說普通老百姓都希望創新每一次都是石破天驚,就是出來的東西必須跟別人完全不一樣,這個也是不現實的。
我給大家舉一個我們做智慧手錶的例子,如果大家去看 2015 年的智慧手錶,再去看我們今天的智慧手錶,如果在這個過程中你去單看一個產品的釋出,或者說是用一年的時間做一個時間段去看這個東西,你覺得好像這個跟前一代也沒什麼區別。
三年以後你就會發現,今天的智慧手錶跟三年前的是非常不一樣的,比如說以前洗手的時候水就進去了,就不能工作的,今天我們可以做到 50 米防水,功耗以前一天充一次電,用一天就不錯了,像我們剛才講的雙層屏,一般的模式下能做到 5 天跟 7 天。通訊以前主要是 WIFI、GPS,現在可以用 4G,以前的 GPS 不精準現在都非常精準。所以你在一個很短的時間去看這種東西,你覺得不是特別大的變化,但是其實你把它放到一個時間週期去看,創新的價值就體現出來了。
前面講的創新都是一些難的地方,最後為什麼哪有那麼多牛 × 的公司要去做創新?其實是因為創新的這個收益非常大。比如說大家可能一提到美國很多的公司,比如說蘋果、Google、高通這樣的公司,大家都覺得這些公司是非常重創新。
我前面講到他們的代價也是非常大的,但是你們去看他的市值,確實也是在全世界的相關領域裡最領先的,這就是創新的收益。
今天我的標題是「AI 科技創新」,其實 AI 科技跟一般的科技沒什麼區別,只不過今天在這個時間還不成熟,10 年前,晶片的創新是非常難的一件事情,但是大家今天覺得已經沒有那麼稀奇了。
科技創新其實我認為可以分為三大類:
第一,AI 核心演算法的創新。
第二,AI 工程的創新。
第三,AI 產品的創新。
在這裡,每一個創新的成功因素,或者是核心的資源是不一樣的,比如說 AI 核心演算法的創新,可能更多的是依賴於有多少 PhD,而且這個一定是要有創新能力的,並不是拿到 PhD 就可以有創新能力。
比如說 Google,如果大家去 Google 的網站上去看,這個裡面有 2000 多個 PhD,而且這些都是全世界最好的學校,整個 Google 我記得工程師裡面 20% 是有博士學位的,所以也就是說 Google 可能有上萬級以上的 PhD 都是在做產品的創新,和做核心演算法的創新。
這個確實中國跟美國還是有一定的差距,因為他們可以吸引到全世界最好的 PhD,中國更多還是吸引中國本土的 PhD,或者是留學到海外的中國 PhD。
AI 工程的創新更多依賴於有很好的工程師,中國在過去幾年移動網際網路的發展過程中,已經是非常厲害,跟美國的差距已經不大。
AI 產品的創新,更多是依賴於你是不是有海量的資料、使用者,這個中國在全球都已經是領先的。
未來幾年,我們希望能夠在 AI 演算法上有更多推進,跟美國很多的創新至少可以在同一條路上去跑。
中國科技創新的攔路虎是什麼?我覺得中國談科技創新是最近幾年的事情,網際網路公司們討論了很多的創新,但確實過去很多時候我們的創新有這幾個缺點:騎牆主義、拿來主義、功利主義、彎道超車。
談創新,你自己要有一個明確的判斷、想法,而不能說今天人家說這一條路徑好,你就去跑一跑,跑到半路人家說不行了,或者說遇阻力,然後人家說這條路好,你就跑到這條路,我看到了很多的中國公司有這種傾向。
拿來主義這個大家都理解,人家花 100 塊錢乾的事情,等別人幹出來了我花 1 塊錢就行了,我甚至看到今天很多的大公司,他有的時候還會跟別人說,你看 Google 花了 20 億才搞出了這個東西,我花了兩億就搞出來了,他甚至還把這個當做一個很自豪的事情。在我看來,這就是非常功利的事情。
說到彎道超車,很多時候我們特別喜歡講,但你不應該彎道超車,因為這樣說明你比人家起步晚,你應該是跟人家站在同一個起跑線,而不是老想著彎道超車。因為,只有你是第一步進入,然後跟人家一起嘗試,最後你才能夠獲得創新帶來的收益,以及獲得我們競爭者和合作夥伴的認同。
這個就是我今天分享的創新,非常隨機的一些想法,這裡絕大部分都是創新者,雖然創新非常艱難,但是我覺得創新的收益挺高,整個過程也讓人非常愉悅,希望大家都能堅持創新,謝謝大家!