人工智障 (3/3)
作者:Mingke,本文轉自 S先生人工智障2 ,此為第二部分。
Part 4 AI產品的潛力在於設計
「 AI的歸AI,產品的歸產品 」
《The Prestige》2006,劇照
有一部我很喜歡的電影,The Prestige,裡面講了一個關於「瞬間移動」的魔術。對於觀眾而言,就是從一個地方消失,然後瞬間又從另一個地方出現。
第一個魔術師,成功的在舞臺上實現了這個效果。他開啟舞臺上的右邊的門,剛一進去的一瞬間,就從舞臺左邊的門出來了。對觀眾而言,這完全符合他們的期望。
第二個魔術師在觀眾席裡,看到效果後驚呆了,他感覺這根本毫無破綻。但是他是魔術師——作為一個產品經理——他就想研究這個產品是怎麼實現的。但是魔術行業裡,最不受人待見的,就是魔術揭祕。
影片最後,他得到了答案(劇透預警):所有的工程機關、升降機、等等,都如他所料的藏在了舞臺下面。但真正的核心是,第一個魔術師一直隱藏著自己的另一個雙胞胎兄弟。當他開啟一個門,從洞口跳下舞臺的那一刻,雙胞胎的另一位就馬上從另一邊升上舞臺。
看到這裡,大家可能就恍然大悟:「原來是這樣,雙胞胎啊!」
這感覺是不是有點似曾相識?在本文 Part 2,我們聊到把對話系統的黑箱開啟,裡面就是填一張表的時候,是不是有類似的感覺?對話式人工智慧的產品(對話系統)就像魔術,是一個黑箱,使用者是以感知來判斷價值的。
「我還以為有什麼黑科技呢,我是雙胞胎我也可以啊。」
其實這並不容易。我們先不說魔術的舞臺裡面的工程設計,這個魔術最難的地方是如何能在魔術師的生活中,讓另一個雙胞胎在大眾視野裡完全消失掉。如果觀眾們都知道魔術師是雙胞胎,就很可能猜到舞臺上的魔術是兩個人一起表演的。所以這個雙胞胎,一定不能出現在大眾的「世界模型」裡。
為了讓雙胞胎的另一個消失在大眾視野裡,這兩兄弟付出了很多代價,身心磨,絕非一般人能接受的,比如共享同一個老婆。
這也是我的建議: 技術不夠的時候,設計來補 。做 AI 產品的同學,不要期待給你智慧。要是真的有智慧了,還需要你幹什麼?人工智慧產品經理需要設計一套龐大的系統,其中包括了填表、也當然包括深度學習帶來的意圖識別和實體提取等等標準做法、也包括了各種可能的對話管理、上下文的處理、邏輯指代等等。
這些部分,都是產品設計和工程力量發揮的空間。
「 設計思路的基礎 」
我需要強調一下,在這裡,咱們講的是 AI 產品思路,不是 AI 的實現思路。
對於對話類產品的設計,以現在深度學習的基礎, 語義理解應該只佔整個產品的 5%-10% ;而其他的,都是想盡一切辦法來模擬「傳送」這個效果——畢竟我們都知道,這是個魔術。如果只是識別就佔了你家產品的大量心血,其他的不去拉開差異,基本出來就是智障無疑。
在產品研發方面上,如果研發團隊能提供多種技術混用的工具,肯定會增加開發團隊和設計的發揮空間。這個做法也就是 DL(Deep Learning) + GOFAI (Good Old Fashioned AI) 的結合 。GOFAI 是 John Haugeland 首先提出的 ,也就是深度學習火起來之前的 symbolic AI,也就是專家系統,也就是大多數在 AI 領域的人都看不起的「if then…」
DL+GOFAI 這個前提,是當前一切後續產品設計思路的基礎。
「 Design Principle:存在即為被感知 」
「 存在即為被感知 」是 18 世紀的哲學家 George Berkeley 的名言。加州大學伯克利分校的命名來源也是為了紀念這位唯心主義大師。這個意思呢,就是如果你不能被感知到,你就是不存在的!
我認為「存在即為被感知」是對話類 AI 產品的 Design principle。 對話產品背後的智慧,是被使用者感知到而存在的 。直到有一天 AI 可以代替產品經理,在那之前,所有的設計都應該圍繞著,如何可以讓使用者感覺和自己對話的 AI 是有價值的,然後才是聰明的。
要非常明確自己的目的, 設計的是 AI 的產品,而不是 AGI 本身 。就像魔術的設計者,給你有限的基礎技術條件,你能組裝出一個產品,體驗是人們難以想到。
同時,也要深刻的認識到產品的侷限性。魔術就是魔術,並不是現實。
這意味著,在舞臺上的魔術,如果改變一些重要的條件,它就不成立了。比如,如果讓觀眾跑到舞臺的頂上,從上往下看這個魔術,就會發現舞臺上有洞。或者「瞬間移動」的不是這對雙胞胎中的一個,而是一個觀眾跑上去說,「讓我來瞬間移動試試」,就穿幫了。
Narrow AI 的產品,也是一樣的。如果你設計好了一個 Domain,無論其中體驗如何,只要使用者跑到 Domain 的邊界以外了,就崩潰了。先設定好產品邊界,設計好「越界時給使用者的反饋」,然後在領域裡面,儘可能的模擬這個魔術的效果。
假設 Domain 的邊界已經設定清晰了,哪些方面可以通過設計和工程的力量,來大幅增加效果呢?
其實,在「Part 3 對話的本質」裡談到的與思維相關的部分,在限定 Domain 的前提下,都可以作為設計的出發點:你可以用 GOFAI 來模擬世界模型、也可以模擬場景模型、你可以 Fake 邏輯推理、可以 Fake 上下文指代——只要他們都限定在 Domain 裡。
「 選擇合適的Domain 」
成本(工程和設計的量)和給使用者的價值並不是永遠成正比,也根據不同的 Domain 的不同。
比如,我認為現在所有的閒聊機器人都沒有什麼價值。開放 Domain,沒有目標、沒有限定和邊界,對使用者而言,會認為什麼都可以聊。但是其自身「場景模型」一片空白,對使用者所知的常識也一無所知。導致使用者稍微試一下,就碰壁了。我把這種使用者體驗稱為「每次嘗試都容易遇到挫折」。
可能,有些 Domain 對回覆的內容並不那麼看重。也就並不需要那麼強壯的場景模型和推理機制來生成回覆內容。
我們假設做一個「樹洞機器人」,可以把產品定義是為,扮演一個好的聽眾,讓使用者把心中的壓力煩惱傾訴出來。
▲ Human Counseling. Source: Bradley University Online
這個產品的邊界,需要非常明確的,在使用者剛剛接觸到的時候,強化到使用者的場景模型中。主要是系統通過一些語言的反饋,鼓勵使用者繼續說。而不要鼓勵使用者來期望對話系統能輸出很多正確且有價值的話。當用戶做出一些陳述之後,可以跟上一些對「場景模型」依賴較小,泛泛的話。
「我從來沒有這麼考慮過這個問題,你為什麼會這麼想呢?」
「關於這個人,你還有哪些瞭解?」
「你覺得他為什麼會這樣?」
……
這樣一來,產品在需求上,就大幅減輕了對「自然語言生成」的依賴。因為這個產品的價值,不在回覆的具體內容是否精準,是否有價值上。這就同時降低了對話背後的「場景模型」、「世界模型」、以及「常識推理」這些高維度模組的需求。訓練的素材嘛,也就是某個特定分支領域(比如職場、家庭等)的心理諮詢師的對話案例。產品定義上,這得是一個 Companion 型的產品,不能真正起到理療的作用。
當然,以上並不是真正的產品設計,僅僅是用一個例子來說明,不同的 Domain 對背後的語言互動的能力要求不同,進而對更後面的「思維能力」要求不同。選擇產品的 Domain 時,儘量遠離那些嚴重依賴世界模型和常識推理,才能進行對話的場景。
有人可能說,你這不就是 Sophia 的做法麼?不是。這裡需要強調的是 Sophia 的核心問題是欺騙。產品開發者是想忽悠大眾,他們真的做出了智慧。
在這裡,我提倡的是明確告訴使用者,這就是對話系統,而不是真的造出了智慧。這也是為什麼,在我自己的產品設計中,如果遇到真人和 AI 同時為使用者服務的時候(產品上稱為 Hybrid Model),我們總是會偏向明確讓使用者知道,什麼時候是真人在服務,什麼時候是機器人在服務。這麼做的好處是,控制使用者的預期,以避免使用者跑到設計的 Domain 以外去了;不好的地方是,你可能「聽上去」沒有那麼酷。
所以,當我說「存在即為被感知」的時候,強調的是對價值的感知;而不是對「像人一樣」的感知。
「 對話智慧的核心價值:在內容,不在互動 」
多年前,還在英國讀書的時候,我曾經在一個非常有名歷史悠久的祕密結社裡工作。我對當時的那位照顧會員需求的大管家印象深刻。你可以想象她好像是「美國運通黑卡服務」的超級禮賓,她有兩個超能力:
1. Resourceful,會員的奇葩需求都能想盡辦法的實現:一個身在法蘭克福的會員半夜裡遇到急事,臨時想盡快回倫敦,半夜沒有航班了,打電話找到大管家求助。最後大管家找到另一個會員的朋友借了私人飛機,送他一程,凌晨回到了倫敦。
2. Mind-reading,會員想要什麼,無需多言:
「Oliver,我想喝點東西…」
「當然沒問題,我待會給你送過來。」她也不需要問喝什麼,或者送到哪裡。
人人都想要一個這樣的管家。蝙蝠俠需要 Alfred;鋼鐵俠需要 Javis;西奧多需要 Her(儘管這哥們後來走偏了);iPhone 需要 Siri;這又回到了我們在 Part1 裡提到的,AI 的 to C 終極產品是智慧助理。
但是,人們需要這個助理的根本原因,是因為人們需要它的對話能力麼?這個世界上已經有 70 億個自然語言對話系統了(就是人),為什麼我們還需要製造更多的對話系統?
我們需要的是對話系統後面的思考能力,解決問題的能力。而對話,只是這個思考能力的互動方式(Conversational User Interface)。如果真能足夠聰明的把問題提前解決了,使用者甚至連話都不想說。
我們來看個例子。
我知道很多產品經理已經把這個 iPhone 初代釋出的東西講爛了。但是,在這兒確實是一個非常好的例子:我們來探討一下 iPhone 用虛擬鍵盤代替實體鍵盤的原因。
普通使用者,從最直觀的視角,能得出結論:這樣螢幕更大!需要鍵盤的時候就出現,不需要的時候就消失。而且還把看上去挺複雜的產品設計給簡化了,更好看了。甚至很多產品經理也是這麼想的。實際上,這根本不是硬體設計的問題。原因見下圖。
其實喬布斯在當時也講的很清楚:物理鍵盤的核心問題是,(作為互動 UI)你不能改變它。物理互動方式(鍵盤)不會根據不同的軟體發生改變。
如果要在手機上載入各種各樣的內容,如果要創造各種各樣的軟體生態,這些不同的軟體都會有自己不同的 UI,但是互動方式都得依賴同一種(物理鍵盤無法改變),這就行不通了。
所以,實際代替這些物理鍵盤的,不是虛擬鍵盤,而是整個觸控式螢幕。因為 iPhone(當時的)將來會搭載豐富的生態軟體內容,就必須要有能與這些還沒出現的想法相容的互動方式。
在我看來,上述一切都是為了豐富的內容服務。再一次的,互動本身不是核心,它背後搭載的內容才是。
但是在當初看這個釋出會的時候,我是真的沒有 get 到這個點。那個時候真的難以想象,整個移動互聯時代會誕生的那麼多 app,都有各自不同的 UI,來搭載各式各樣的服務。
你想想,如果以上面這些實體鍵盤,讓你來操作大眾點評、開啟地圖、Instagram 或者其他你熟悉的 app,是一種怎樣的體驗?更有可能的是,只要是這樣的互動方式,根本設計不出剛才提到的那些 app。
與之同時,這也引申出一個問題:如果裝置上,並沒有多樣的軟體和內容生態,那還應該把實體鍵設計成觸控和虛擬的方式麼?比如,一個挖掘機的互動方式,應該使用觸屏麼?甚至對話介面?
「 對話智慧解決重複思考 」
同樣的,對話智慧的產品的核心價值,應該在解決問題的能力上,而不是停留在互動這個表面。這個「內容」或者「解決問題的能力」是怎麼體現的呢?
工業革命給人類帶來的巨大價值在於解決「重複體力勞動」這件事。
經濟學家 Tyler Cowen 認為,「什麼行業的就業人越多,顛覆這個工種就會創造更大的商業價值。」他在 Average Is Over 這本書裡描述到:
「20 世紀初,美國就業人口最多的是農民;二戰後的工業化、第三產業的發展,再加上婦女解放運動,就業人工最多的工種變成輔助商業的文字工作者比如祕書助理呼叫中心(文員,資訊輸入)。1980/90 年代的個人計算機,以及 Office 的普及,大量祕書,助理類工作消失。」
這裡提及的工作,都是需要大量重複的工作。而且不停的演變, 從重複的體力,逐步到重複的腦力。
從這個角度出發,對一個場景背後的「思考能力」沒有把控的 AI 產品,會很快被代替掉。首當其衝的,就是典型意義上的智慧客服。
在市場上,有很多這樣的智慧客服的團隊,他們能夠做對話系統(詳見 Part 2),但是對這各領域的專業思考,卻不甚瞭解。
我把「智慧客服」稱為「前臺小姐姐」——無意冒犯,但是前臺小姐姐的主要工作和專業技能並沒有關係。他們最重要的技能就是對話,準確點說是用對話來「路由」——瞭解使用者什麼需求,把不合適的需求過濾掉,再把需求轉給專家去解決。
但是對於一個企業而言,客服是隻嘴和耳,而專家才是腦,才是內容,才是價值。客服有多不核心?想想大量被外包出去的呼叫中心,就知道了。
與這類客服機器人產品對應的,就是專家機器人。一個專家,必定有識別使用者需求的能力,反之不亦然。你可以想象一個企業支付給一個客服多少薪資,又支付給一個專家多少薪資?一個專家需要多少時間培訓和準備才能上崗,客服小姐姐呢?於此同時, 專業能力是這個機構的核心,而客服不是 。
正因為如此,很多人認為,人工的呼叫中心,以後會被 AI 呼叫中心代替掉;而我認為,用 AI 做呼叫中心的工作,是一個非常短暫的過渡型方案。很快代替人工呼叫中心的,甚至代替 AI 呼叫中心,是具備互動能力的專家 AI 中心。在這兒,「專家」的意義大於「呼叫」。
在經歷過工具化帶來的產能爬坡和規模效應之後,他們成本差不多,但是卻專業很多。比如他直接連結後端的供給系統的同時,還具備專業領域的推理能力,也能與使用者直接互動。
NLP 在對話系統裡解決的是互動的問題。
在人工智慧產品領域裡,給與一定時間,掌握專業技能的團隊一定能對話系統; 而掌握對話系統的團隊則很難掌握專業技能 。試想一下在幾年前,移動互聯剛剛出現的時候,會做 app 的開發者,去幫銀行做 app;而幾年之後銀行都會自己開發 app,而開發者幹不了銀行的事。
在這個例子裡,做 AI 產品定義的朋友,你的產品最好是要代替(或者輔助)某個領域專家;而不要瞄準那些過渡性崗位,比如客服。
從這個角度出發, 對話智慧類的產品最核心的價值,是進一步的代替使用者的重複思考。Work on the mind not the mouth. 哪怕已經是在解決腦袋的問題, 也儘量去代替使用者系統2的工作,而不只是系統1的工作。
在你的產品中,加入專業級的推理;幫助使用者進行抽象概念與具象細節之間的轉化;幫助使用者去判斷那些出現在他的模型中,但是他口頭還沒有提及的問題;考慮他當前的環境模型、發起對話時所處的物理時空、過去的經歷;推測他的心態,他的世界模型。
先解決思考的問題,再儘可能的轉化成語言。
Part 5 AIPM
「 缺了什麼?」
2018 年 10 月底,我在慕尼黑為企業客戶做 on site support。期間與客戶的各個 BU、市場老闆們以及自身的研發團隊交流對話 AI 的應用。作為全球最頂尖的汽車品牌之一,他們也在積極尋求 AI 在自身產品和服務上的應用。
- 不缺技術人才。 儘管作為傳統行業的大象,可能會被外界視為不擅長 AI,其實他們自身並不缺少 NLP 的研發。當我跟他們的 NLP 團隊交流時,發現基本都有世界名校的 PHD。而且,在閉門的供應商大會上,基本全球所有的科技大廠和諮詢公司都在場了。就算實在搞不了,也大有人排著隊的想幫他們搞。
- 創新的意願強烈 。在我接觸過的大企業當中,特別是傳統世界 100 強當中中,這個巨頭企業是非常重視創新的。經過移動互聯時代,丟掉的陣地,他們是真心想一點點搶回來,並試圖領導所在的行業,而不是 follow 別人的做法。不僅僅是像「傳統的大企業創新」那樣做一些不痛不癢的 POC,來完成創新部門的 KPI。他們則真的很積極地推進 AI 的商業化,而且勇於嘗試改變過去和 Tech provider 之間的關係。這點讓我印象深刻,限於保密條款,在此略過細節。(關於國際巨型企業借新技術的初創團隊之手來做顛覆式創新,也是一個很有意思的話題,以後新開一個 Topic。)
- 資料更多。 那麼傳統巨頭的優勢就在於,真正擁有業務場景和實際的資料。賣出去的每一臺產品都是他們的終端,而且開始全面聯網和智慧化。再加上,各種線下的渠道、海量的客服,其實他們有能力和空間來蒐集更完整的使用者生命週期資料。
當然,作為硬幣的另一面,百年品牌也自然會有嚴重的歷史牽絆。機構內部的合規、採購流程、資料的管控、BU 之間的資料和行政壁壘也是跑不掉的。這些環節的 Trade off 確實大大的影響了對上述優勢的利用。
但是最缺少的還是產品定義能力。
如果對話智慧的產品定義失敗,後面的執行就算是完美的,出來的效果也是智障。有些銀行的 AI 機器人就是例子:立項用半年,競標用半年,開發用一年,然後上線跑一個月就因為太蠢下線了。
但這其實並 不是傳統行業的特點,而是目前所有玩家的問題 ——網際網路或科技公司的對話 AI 產品也逃不掉。可能網際網路企業還自我感覺良好,在這產品設計部分,人才最不缺了——畢竟「人人都是產品經理」嘛。但在目前,咱們看到的網際網路公司出來的產品也都是差不多的效果,具體情況咱們在 Part 2 裡已經介紹足夠多了。
我們來看看難點在哪裡。
AI 產品該怎麼做定義呢?也就是,需要怎樣的產品才能實現商業需求。技術部門往往主要關注技術實現,而不背商業結果 KPI;而業務部門的同事對 AI 的理解又很有限,也就容易提出不合適的需求。
關鍵是,在做產品定義時,你想要描述「我想要一個這樣的 AI,它可以說…」的時候你會發現,因為是對話介面,你根本無法窮盡這個產品的可能性。其中一個具體細節就是,產品文件該怎麼寫,這就足夠挑戰了。
「 對話AI產品的管理方法 」
先給結論:如果還想沿用管理 GUI 產品的方法論來管理對話智慧產品,這是不可能的。
從行業角度來看,沒有大量成功案例,就不會有流水線;沒有流水線,就沒有基於流水線的專案管理。
也就是說,從 1886 年開始第一輛現代汽車出現,到 1913 年才出現第一條流水線——中間有 27 年的跨度。再到後來豐田提出 The Toyota Way,以精益管理 (Lean Management) 來快速迭代(類似敏捷開發)以儘量避免浪費,即 Kaizen(改善) ,這已經是 2001 年的事情了。
這兩天和其他也在給大企業做對話的同行交流的時候,聽到很多不太成功的產品案例,歸結起來幾乎都是因為「產品 Scope 定義不明」,導致專案開展到後面根本收不了尾。而且因為功能之間的耦合緊密,連線都上不了(遇到上下文對話依賴的任務時,中間環節一但有缺失,根本走不通流程)。這些都是行業早期不成熟的標誌。
「 對話AI產品的Design Principle 尚未出現 」
對話智慧領域相對視覺類的產品,有幾個特性上的差異:
1)是產品化遠不如視覺類 AI 成熟;
2)深度學習在整個系統裡扮演的角色雖然重要,但是還是很少,遠不夠撐起來有價值的對話系統;
3)產品都是黑箱,目前在行業中尚無比較共同認可的設計標準。
app 發展到後面,隨著使用者的使用習慣的形成,和業界內成功案例的「互相交流」,逐步形成了一些設計上的共識,比如下面這一排,最右邊紅圈裡的「我」:
但是,從 2007 年 iPhone 釋出,到這些移動產品的設計規範逐步形成, 也花了近 6、7 年時間,且不提這是圖形化介面。
到如今,這類移動裝置上的產品設計標準已經成熟到,如果在設計師不遵循一些設計思路,反而會引起使用者的不習慣。只是對話系統的設計規範,現在談還為時尚早。
到這裡,結合上述兩個點(對話 AI 產品的管理方法、設計規範都不成熟),也就可以解釋 為什麼智慧音箱都不智慧 。因為智慧音箱的背後都是一套「技能打造框架」,給開發者,希望開發者能用這套框架來製作各種「技能」。
而「對話技能類平臺」在目前根本走不通。任何場景一旦涉及到明文識別以外的,需要對特定的任務和功能進行建模,然後再融合進多輪對話管理裡的場景,以現在的產品成熟程度,都無法抽象成有效的設計規範。現在能抽象出來的,都是非常簡單的上下文管理(還記得 Part 2 裡的「填表」麼?)。
我就舉一個例子,絕大部分的技能平臺,根本就沒有「使用者生命週期管理」的概念。這和服務流程是兩碼事,也是很多機器人智障的諸多原因之一。因為涉及到太細節和專業的部分,咱們暫且不展開。
也有例外的情況:技能全部是語音控制型,比如「關燈開燈」「開空調 25 度」。這類主要依賴明文識別的技能,也確實能用框架實現比較好的效果。但這樣的問題在於,開放給開發者沒有意義:這類技能既不需要多樣的產品化;開發者從這類開發中也根本賺不到錢——幾乎沒有商業價值。
另一個例外是大廠做 MLaaS 類平臺,這還是很有價值的。能解決開發者對深度學習的需求,比如意圖識別、分詞、實體提取等最底層的需求。但整個識別部分,就如我在 Part 3&4 裡提到的,只應佔到任務對話系統的 10%,也僅此而已。剩下的 90% 的工作,也是真正決定產品價值的工作,都得開發者自己搞。
他們會經歷些什麼?我隨便舉幾個最簡單的例子(行業外的朋友可以忽略):
- 如果你需要訓練一個意圖,要生成 1000 句話來做素材,那麼「找 100 個人,每人寫 10 句」的訓練效果要遠好於「找 10 個人,每人寫 100 句」;
- 是用場景來分意圖、用語義來分意圖和用謂語來拆分意圖,怎麼選?這不僅影響機器人是否能高效支援「任務」之間的跳轉,還影響訓練效率、開發成本;
- 有時候意圖的訓練出錯,是訓練者把自己腦補的內容放進去了;
- 話術的重要性,不僅影響使用者看著舒不舒服,更決定了他的回覆的可能性——以及回覆的回覆的可能性——畢竟他說的每一句後面的話,都需要被識別後,再回復;
- 如果你要給一個電影院做產品,最好用圖形化介面,而不要用語言來選座位:「現在空著的座位有,第一排的 1,2,3,4….」
這些方面的經驗和技巧數都數不完,而且還是最淺顯、最皮毛的部分。你可以想象,對話智慧的設計規範還有多少路要走——記得,每個產品還是黑箱,就算出了好效果,也看不到裡面是怎麼設計的。
「 一個合適的AIPM 」
當真正的人工智慧實現之後,所有產品經理所需要做的思考,都會被 AI 代替。所以,真正的人工智慧也許是人類最後的一個發明。在那一天之前,對話智慧產品經理的工作,是使用各種力量來創造智慧給人的感覺。
AIPM 一定要在心中非常明確「AI 的歸 AI,產品的歸產品」。做工具的和用工具的,出發點是完全不同。應該是帶著做產品的目的,來使用 AI;千萬不要出現「AIPM 是來實現 AI 的」這樣的幻覺。
我們都熟悉,PM 需要站在「人文和技術的十字路口」來設計產品。那麼對話智慧的 AIPM 可能在這方面可能人格分裂的情況更極端,以至於甚至需要 2 個人來做配合成緊密的產品小組——我認為一個優秀的對話智慧產品經理,需要在這三個表現優秀:
1. 懂商業:就是理解價值。
對話產品的價值一定不在對話上,而是通過對話這種互動方式(CUI)來完成背後的任務或者解決具體問題。一個本來就很強的 app,就不要想著去用對話重新做一遍。反而是一些 app/WEB 還沒有能很好解決的問題,可以多花點時間研究看看。
這方面在 Part 4 裡的 對話智慧的核心價值 部分,當中有詳細闡述,在這裡就不重複了。
2. 懂技術:理解手中的工具(深度學習 + GOFAI)
一個大廚,應該熟悉食材的特性;一個音樂家,應該熟悉樂器的特徵;一個雕塑家,應該熟悉手中的鑿子。大家工具都差不多,成果如何,完全取決於藝術家。
現在,AIPM 手中有深度學習,那麼就應該瞭解它擅長什麼和不擅長什麼。以避免提出太過於荒謬的需求,導致開發的同學向你發起攻擊。瞭解深度學習的特性,會直接幫助我們判斷哪些產品方向更容易出效果。比如,做一個推薦餐廳的 AI,就比做一個下圍棋的 AI 難太多了。
下圍棋的產品成功,並不需要人類理解這個過程,接受這個結果就行。而推薦一個餐廳給使用者,則必須要去模擬人的思維後,再投其所好。
人們在想要推薦餐廳的時候,通過對話,瞭解他的需求(絕對不能問太多,特別是顯而易見的問題,比如他在 5 點的時候,你問他要定幾點的餐廳)
對於圍棋而言,每次(單次)輸入的可能性只有不超過棋盤上 19×19=361 種可能性;一局棋的過程儘管千變萬化,我們可以交給深度學習的黑箱;最後決定輸贏所需要的資訊,全部呈現在棋盤上的落子上,儘管量大,但與落子以外的資訊毫無關係,全在黑箱裡,只是這個黑箱很大。最後,輸出的結果的可能性只有兩種:輸或者贏。
對於推薦餐廳。每次輸入的資訊,實際並不包含決策所需要的全部資訊(無法用語言表達所有相關的影響因素,參考 Part 3 裡世界模型部分);而且輸出的結果是開放的,因為推薦的餐廳,既不可被量化,更不存在絕對的對錯。
瞭解 CUI 的特性後,不該用對話的就不要強上對話互動;有些使用對話成本非常高,又很不 Robustic 的環節,同時使用者價值和使用頻次又很低的,就要考慮規避——咱們是做產品的,不是實現真正的 AI 的,要分清楚。
3. 懂人:心理和語言
這可能是當前對話類產品最重要的地方,也是拉開和其他產品設計的核心部分。也可能是中年人做產品的第二春。
對心理的理解,指的是當用戶在說話的時候,對他腦中的模型的理解。英文中「Read the room」就是指講話之前,先觀察一下了解周圍聽眾的情況,揣摩一下他們的心理,再恰當的說話。
比如,講話的時候,是否聽眾開始反覆的看錶?這會讓直接影響對話的程序。你有遇到過和某人對話起來感覺很舒服的麼?這個人,不僅僅是語言組織能力強,更重要的則是他對你腦中的對話程序的把握,以及場景模型,甚至對你的世界模型有把握。他還知道怎麼措辭,會更容易讓你接受,甚至引導(Manipulate)你對一些話題的放棄,或者是加強。
對話系統的設計也是一樣的。哪些要點在上文中說過?哪些型別的指代可以去模擬?如果是文字介面,使用者會不會拉回去看之前的內容?如果是語音介面,使用者腦中還記不記得住?如果記得住,還強調,會感覺重複;如果記不住,又不重複,會感覺困惑。
對語言的理解,則是指對口語特性的理解。我知道 Frederick Jelinek 說的「每當我開除一個語言學家,Speech 識別的準確率就會增高」。只是,現在根本沒有真正意義上的自然語言生成(NLG), 因為沒有真正的思維生成 。
所以,任務類的對話的內容,系統不會自然產生,也無法用深度學習生成。對於 AIPM 而言,要考慮的還是有很多語言上的具體問題。一個回覆裡,內容會不會太長?要點該有幾個?謂語是否明確,使用者是否清晰被告知要做什麼?條件又是什麼?這樣的回覆,能引發多少種可能的問詢?內容措辭是否容易引起誤解(比如因為聽眾的背景不同,可能會有不同的解讀)?
從這個角度而言,一個好的對話系統,必定出自一個很能溝通的人或者團隊之手。能為他人考慮,心思細膩,使用語言的能力高效,深諳人們的心理變化。對業務熟悉,能洞察到使用者的 Context 的變化,而其格調又幫助使用者控制對話的節奏,以最終解決具體問題。
Part 6 可見的未來是現狀的延續
「 過渡技術」
在幾周前,我與行業裡另一家做對話的 CEO 討論行業的將來。當我聊到「深度學習做對話還遠達不到效果」的態度時,他問我:「如果是悲觀的,那麼怎麼給團隊希望繼續往前進呢?」
其實我並不是悲觀的,可能只是更客觀一點。
既然深度學習在本質上搞不定對話,那麼現在做對話 AI 的實現方式,是不是個過渡技術?這是一個好問題。
我認為, 用現在的技術用來製作 AI 的產品,還會持續很長時間,直到真正智慧的到來 。
如果是個即將被替代或者顛覆的技術,那就不應該加碼投入。如果可以預見未來,沒人想在數碼相機崛起的前期,加入柯達;或者在 LED 電視普及之前,重金投入在背投電視的研發上。而且難以預測的不僅僅是技術,還有市場的發展趨勢。比如在中國,作為無現金支付方式,信用卡還沒來得及覆蓋足夠多的支付場景,就被移動支付斷了後路。
而現在的對話智慧所使用的技術,還遠沒到這個階段。
Clayton M. Christensen 在《創新者的窘境》裡描述了每個技術的三個階段:
- 第一個階段,緩步爬坡;
- 第二個階段開始迅猛發展,但是到接近發展的高地(進步減速)的時候,另一個顛覆式技術可能已經悄悄萌芽,並重復著第一個技術的發展歷程;
- 第三個階段,則進入發展瓶頸,並最終被新技術顛覆
下圖黑色部分,為書中原圖:
而當前對話 AI 的技術,還在第一階段(藍色旗幟位置)稱不上是高速發展,還處於探索的早期。黑箱的情況,會使得這個週期(第一階段)可能比移動時代更長。
以當前的技術發展方向,結合學術界與工業界的進展來看,第二個技術還沒有出現的影子。
但是同樣因為深度學習在對話系統中,只扮演的一小部分角色,所以大部分的空間,也是留給大家探索和成長的空間。換句話來講,還有很多發展的潛力。
前提是,我們在討論對話類的產品,而不是實現 AI 本身。只是,這個階段的對話 AI,還不會達到人們在電影裡看到的那樣,能自如的用人類語言溝通。
2) 服務提供者崛起的機會
因為上述的技術發展特點,在短期的將來, 資料和設計是對話智慧類產品的壁壘,技術不是 。
只是這裡說的資料,不是指的用來訓練的資料。而是供給端能完成服務的資料;能夠照顧使用者整個生命週期的資料;是當對話發生的時候,使用者的明文以外的資料這些資料;影響使用者腦中的環境模型、影響對任務執行相關的常識推理資料,等等。
而隨著 IOT 的發展,服務提供者,作為與使用者線上下直接打交道的一方,是最有可能掌握這些資料。他們能在各個 Touch point 去部署這些 IOT 裝置,來蒐集環境資料。並且,由他們決定要不要提供這些資料給平臺方。
但是,往往這些行業裡的玩家都是歷史悠久、行動緩慢。其組織機構龐大,而且是組織結構並不是為了創新而設計,而是圍繞著如何能讓龐大的軀幹不用思考,高速執行。而這也正是網際網路企業和創業企業的機會。
3)超級終端與入口之爭
對話智慧類的產品必須搭載在硬體終端上。很多相關的硬體嘗試,都是在賭哪個裝置能夠成為繼手機之後的下一個超級終端。就好像智慧手機作為計算裝置,代替了 PC 的地位一樣。
畢竟,在移動時代,搶到了超級終端,就搶到了使用者獲取服務的入口。在入口的基礎之上,才是各個應用。
如果對話智慧發展到足夠好的體驗,並能覆蓋更多的服務領域時,哪一個終端更有可能成為下一個超級終端呢?智慧音箱、帶螢幕的音箱、車載裝置甚至車機、穿戴裝置等等都可以搭載對話智慧。在 5G 的時代,更多的計算交給雲端,在本地裝置上留下能耗較低的 OS 和基礎設施,I/O 交給麥克風和音訊播放就完成了。
▲ credit:Pixabay
因此 任意一個聯網裝置,都可能具備互動和傳遞服務的能力 ,進一步削弱超級終端的存在。也就是說,作為個人使用者,在任意一個聯網裝置上,只要具備語音互動和聯網能力,都可能獲得服務。特別是一些場景依賴的商業服務,如酒店、醫院、辦公室等等。
隨著這些入口的出現,在移動時代的以流量為中心的商業模式,可能將不再成立。而新的模式可能誕生,想象一下,每一個企業,每一個品牌都會有自己的 AI。一個或是多個,根據不同的業務而產生;對內部員工服務或者協助其工作,同時也接待外部的客服,管理整個生命週期從註冊成這家企業的使用者開始,到最後(不幸地)中斷服務為止。
只是這個發展順序是,先有服務,再有對話系統——就好像人,是有腦袋裡的想法,再用對話來表達。
結語
在本文中,所有與技術和產品相關的討論,都是在強調一個觀點:一個產品是由很多技術組合而成。我不希望傳達錯誤的想法,類似「深度學習不重要」之類的;相反,我是希望每一類技術都得到正確的認識,畢竟我們離真正的人工智慧還有距離,能用上的都有價值。
作為 AI 從業者,心中也會留有非理性的希望,能早日見證到人造的智慧的到來。畢竟,如果真正的智慧出現了,可能產品經理(以及其他很多崗位)就徹底解放了(或者被摧毀了)。
這或許就是人類的最後一個發明。
本文開始於慕尼黑,最終成稿於北京,斷斷續續耗時接近 3 個月。期間與很多大企業,行業內的創業者,還有一些資本的同學溝通交流。在此表示感謝,就不一一點名啦。
本文 來自微信公眾號 S 先生(ID:TheMisterS),作者為 Mingke,愛範兒經授權釋出,文章為作者觀點,不代表愛範兒立場。