AI產品經理入門手冊(上)
近兩年來AI產業已然成為新的焦點和風口,各網際網路巨頭都在佈局人工智慧,不少網際網路產品經理也開始考慮轉型AI產品經理,本文作者也同樣在轉型中。本篇文章是通過一段時間的學習歸納總結整理而成,力圖通過這篇文章給各位考慮轉型的產品經理們一個對AI的全域性概括瞭解。本文分為上下兩篇,此為上篇。
全文思維導圖如下:
目錄:
- AI通識
- AI應用領域
- AI技術
- 小結
一、AI通識
1.1 AI產業結構
AI發展至今大致按照在產業結構上的分工不同產生了三種類型的公司,我們在轉型時最好要先明確自己的優勢及興趣,來判斷自己適合著眼於哪個層面的工作,從而進行鍼對性的學習和提升。
(1)行業+AI
這類公司 重在“行業” ,本身有著一定的行業積累,給使用者提供AI賦能後的產品或服務。例如:智慧家居、智慧車載等。這類公司對產品經理的要求重點在對行業的理解上,以及需要對行業趨勢有一定的insight。
目前此類公司的戰略趨勢是會越來越細分到具體的垂直場景上,所以這也 對產品經理的場景分析能力有較高要求 。
(2)AI+行業
這類公司 重在“AI” ,是由AI催生出來的行業,客戶可以通過使用這類公司提供的服務或解決方案來完善自己的產品,從而快速提升自身產品的價值,例如:智慧客服、智慧外呼等。
此類公司商業模式主要以to B為主,所以需要產品經理具有較強的溝通能力,能快速挖掘理解客戶的真實需求,並對專案具有一定的把控管理能力。
(3)基礎平臺
這類公司旨在 提供基礎AI技術平臺 ,包括一些計算平臺、演算法平臺,或者提供各場景的一手資料,從而幫助企業快速對接AI技術,大幅縮短客戶在人工智慧研發上的投入成本和週期。此類公司對產品經理的要求更側重於對底層技術框架的理解。如果你曾經從事過研發工作,那麼在該類公司工作會比較有優勢。
1.2 AI產品經理的分類
AI產品經理,是 直接應用或間接涉及了AI技術 ,進而完成相關AI產品的設計、研發、推廣、產品生命週期管理等工作的產品經理。
引用@hanniman的觀點,AI產品經理可以從狹義和廣義來分類:
(1)狹義AI產品經理
1)定義
直接應用了語義、語音、計算機視覺和機器學習這4個領域的AI技術,進而完成相關AI產品的設計、研發、推廣、產品生命週期管理等工作的產品經理。因為語義、語音、計算機視覺和機器學習這四個領域近幾年的落地情況具有如下4個特點:
- 直到近些年才逐漸“ 可商用 ”(這4項AI技術,其實很多年前就有了,但一直不夠完善);
- 可以應用到 新產品形態/品類 ,比如:實體服務機器人、智慧音箱、虛擬機器器人等;
- 很可能應用了 新的互動方式 ,比如:對話/語音/多模態等;
- 慢慢形成 新職位 ,比如:TTS產品經理。
2)分類:
- 語義類AI產品經理: 對話PM(可再細分為聊天、垂類等)、知識圖譜PM、機器翻譯PM、搜尋PM等
- 語音類AI產品經理: ASR PM、TTS PM
- 視覺類AI產品經理: 人臉識別PM、車輛識別PM、智慧視訊分析PM(涵蓋了人臉、車輛、多目標等等)、影象檢索PM
- 機器學習類AI產品經理: 在出行、推薦、大資料等各種領域應用了機器學習技術的PM
- 終端應用類AI產品經理: 還有一些PM,通過各種終端載體形式,也直接應用了以上4種AI技術中的1種或多種,比如:實體機器人PM、虛擬機器器人PM、智慧車載PM、智慧家居PM(含智慧音箱PM)、穿戴式裝置PM(含VR、AR、MR、手錶、手環、耳機等)、其他網際網路產品形態的PM(公眾號、QQ群、web頁面、App等)
(2)廣義AI產品經理
1)定義
間接涉及了語義、語音、計算機視覺和機器學習這4個領域的AI技術、或直接應用了其他還不夠成熟的細分領域AI技術(比如:腦機介面、量子計算等),進而完成相關AI產品的設計、研發、推廣、產品生命週期管理等工作的產品經理。
廣義AI產品經理具有如下特點:
- “間接涉及”的意思是,不直接掌握這4種AI技術,也能做當前的本質工作;特別的,這類職位,很可能在2015年前已經存在了。
- 至於“直接應用了其他還不夠成熟的細分領域AI技術”,這類領域由於過於超前,AI技術還需要重大突破、市場還沒有成熟,產品經理的產品設計職責不像網際網路產品經理這麼“重”。所以很可能由技術人員或公司創始人兼任,並會承擔較多的專案經理工作職責——相應的,這類產品經理的數量,目前還非常少。
- 當然,未來,廣義AI產品經理也會慢慢向狹義AI產品經理演變、融合。
2)分類
- 終端應用類產品經理(非狹義AI): 在前文提及的實體機器人、虛擬機器器人、智慧車載、智慧家居、穿戴式裝置、其他網際網路產品形態等各種終端載體上,沒有直接應用(但間接涉及了)語義、語音、計算機視覺和機器學習這4種AI技術的PM。
- 策略類產品經理(非狹義AI): 在出行、推薦、大資料等領域,沒有直接應用(但間接涉及了)機器學習技術的PM
- 非成熟AI技術類: 腦機介面、量子計算等。
1.3 AI產品經理的能力模型
每個行業的發展都要經過重技術、重產品、重運營這3個階段,現如今AI行業已經步入第二個階段即產品的優先性要高於技術和運營。在這種背景下,除了要具備通用產品思維外,行業還對AI產品經理在如下方面提出了更高的要求:
(1)找準商業變現模式和閉環
資本寒冬裡,整個市場都在重新洗牌,這種情況下找準自己產品的商業模式就顯得格外重要。陸奇曾說過,人工智慧落地最關鍵的是找到場景和商業模式,做出極致體驗,並快速迭代。
目前AI市場實現商業變現主要有兩種方式:
- 一種是AI直接產出價值,通過AI來取代部分人力,提高生產效率並節省人力成本,例如智慧客服系統等;
- 另一種則是AI賦能人類,為人類決策提供支援,例如AI在醫療領域的應用,輔助醫生診療,AI都是作為助手的角色來幫助人類。
不管是哪種變現方式,要想把AI技術跟垂直行業結合,都要求AI產品經理真實地參與到業務的整個過程中,對行業有足夠縱深的理解。從而從當前行業痛點入手,尋找具有商業價值並足夠細分的垂直場景分析透徹,提煉出場景中可以幫助產品建立優勢的關鍵點,評估投入產出比,調研使用者若使用我們的產品解決當前問題願意支付的價格,之後制定合適的商業推廣策略和產品定價包裝策略,最終實現產品變現。
目前商業化程度做的較好的行業有安防、金融、網際網路服務、企業服務:
- 安防領域,在“雪亮工程”的政策推動下,針對人像資料、車輛資料的智慧攝像機、後臺分析系統等產品落地速度快。
- 在民用市場,人臉閘機成為民用市場的明星產品。
- 金融領域,智慧風控和量化投資的技術應用商業化程度較高,作為“離錢最近”的行業,金融業原本積累的海量資料,使得人工智慧在金融領域快速落地。
- 網際網路服務領域,以翻譯、P圖、智慧推薦、語音轉寫等服務為主,這些服務 以智慧手機為主要入口 ,與公眾工作和生活的關係較緊密。
- 企業服務領域,智慧營銷和智慧客服是兩大主要落地的應用,前者重點基於人群大資料、通過資料探勘技術實現精準營銷,後者基於知識圖譜和語音互動技術而正在被廣泛應用於各行業。
(2)把控產品需求
找準產品的商業變現模式之後,就要深挖產品需求。首先要對公司整體產品架構有比較清晰的認識,在這個框架體系裡評估當前需求是否符合公司整體戰略規劃,之後在這個戰略方向上做MVP,驗證成功則可以繼續打磨細節持續優化,驗證失敗則再探索下一個方向。
業內通常認為 人工智慧的發展離不開三大要素:資料、演算法、計算力 ,但人工智慧落地的應用場景同樣是一款產品能否取得成功的關鍵。
AI產品經理最核心的技能也在於此,即通過人工智慧技術去重新定義場景和需求,提供一套可行的人工智慧解決方案。在明確了具體的需求場景後,需要考慮清楚我們產品的客戶會在當前流程裡的哪個環節使用它,以及現有的方案是什麼,我們的產品解決方案比現有方案好在哪裡。AI
產品經理對產品的需求把控能力比傳統網際網路經理要求高不少,而且需要快速驗證,在瞬息萬變的AI領域迅速落地能解決痛點問題的產品。
現階段的行業通識是選準一個足夠細分的垂直領域去構建商業和技術壁壘,而不是與谷歌或百度競爭通用AI技術。目前to B的場景主要從提升人工效率、降低人力成本、幫助決策的方向考慮,to C的場景則更側重於提高便利性。
(3)與技術互相推動,互相成就
作為AI產品經理,首先要認識到使用者只在乎購買的產品幫他解決了什麼問題,以及為此支付的價格是否值得,並不在乎產品使用了多複雜多前沿的技術。 產品設計應當從商業盈利以及切實解決使用者痛點的角度出發而非技術出發 ,所以AI產品經理在這個意義上可以根據商業及產品需要倒逼技術優化。
在實際的產品設計的過程中,AI產品經理必須理解技術實現過程,找到使用者需求和AI技術的交叉點,設計的產品要和團隊現有資料、演算法、計算能力匹配。做到準確傳達產品需求,幫助研發工程師快速實現產品目標,縮短研發工程師找到最佳技術方案的時間。並能使用非技術語言,將研發過程中的技術原理及出現的問題及時與leader和客戶溝通,來獲得支援和認可。
此外,AI產品經理還需要 拓寬自己的認知極限,瞭解技術邊界 ,多跟團隊裡的AI工程師交流,平時也要隨時關注AI行業最新動態和變革,閱讀前沿paper。
(4)獲取使用者信任
隨著AI技術的發展,AI涉及到的倫理和道德及法律風險也越來越引起大眾的關注。美國很多人工智慧公司已經成立了倫理審查委員會來檢查人工智慧產品的設計方案是否符合道德,並確保使用者的安全和權益收到保護。
作為AI產品經理,設計的產品可能會承擔著更高的法律和道德風險。目前很多公司已經意識到AI對人類在道德倫理上的影響並做出舉措,在今年的谷歌開發者大會上谷歌就為Google Assistant加入了針對兒童的Pretty please功能,鼓勵小孩對進行禮貌提問。
在技術發展的過程中,不可避免會引發一些問題造成使用者的不信任。2016年3月,Twitter上線了一款聊天機器人Tay,但是僅在一天的時間裡,Tay就在與網民互動過程中學習成為了一個集性別歧視、種族歧視等於一身的“不良少女”。
類似的,雖然淘寶基於大資料的個性化推薦十分精準,但是因為可解釋性較差導致很多使用者對如此精準的推薦感到十分不安,並認為這種個性化推薦可能侵犯了他們的隱私權。
AI 未來的發展方向可能更應該將更多的決策過程展示出來,讓使用者理解和明白為什麼要做這樣的決策,而不應該僅僅是一個黑盒。
二、AI應用領域
AI目前主要的應用領域有3個方向,包括: 計算機視覺、語音互動、自然語言處理。
2.1 計算機視覺(CV)
計算機視覺是一門研究如何使機器“看”的科學,就是指用攝影機和計算機代替人眼對目標進行識別、跟蹤和測量等機器視覺的應用,是使用計算機及相關裝置對生物視覺的一種模擬,對採集的圖片或視訊進行處理從而獲得相應場景的三維資訊, 讓計算機具有對周圍世界的空間物體進行感測、抽象、判斷的能力 。
計算機視覺在現實場景中應用價值主要體現在可以利用計算機對影象和視訊的識別能力,替代部分人力工作,節省人力成本並提升工作效率。傳統的計算機視覺基本遵循影象預處理、提取特徵、建模、輸出的流程,不過利用深度學習,很多問題可以直接採用端到端,從輸入到輸出一氣呵成。
(1)研究內容
- 實際應用中採集到的影象的質量通常都沒有實驗室資料那麼理想,光照條件不理想,採集影象模糊等都是實際應用中常見的問題。所以首先需要校正成像過程中,系統引進的光度學和幾何學的畸變,抑制和去除成像過程中引進的噪聲,這些統稱為影象的恢復。
- 對輸入的原始影象進行預處理,這一過程利用了大量的影象處理技術和演算法,如:影象濾波、影象增強、邊緣檢測等,以便從影象中抽取諸如角點、邊緣、線條、邊界以及色彩等關於場景的基本特徵;這一過程還包含了各種影象變換(如:校正)、影象紋理檢測、影象運動檢測等。
- 根據抽取的特徵資訊把反映三維客體的各個圖象基元,如:輪廓、線條、紋理、邊緣、邊界、物體的各個面等從圖象中分離出來,並且建立起各個基元之間的拓樸學上的和幾何學上的關係—— 稱之基元的分割和關係的確定。
- 計算機根據事先存貯在資料庫中的預知識模型,識別出各個基元或某些基元組合所代表的客觀世界中的某些實體—— 稱之為模型匹配 ,以及根據圖象中各基元之間的關係,在預知識的指導下得出圖象所代表的實際景物的含義,得出圖象的解釋或描述。
(2)應用場景
計算機視覺的應用場景非常廣,例如:無人駕駛、無人安防、人臉識別、光學字元識別、物體追蹤、車輛車牌識別、以圖搜圖、醫學影象分析等。最近B站新上線的彈幕防擋臉功能,即在播放視訊時彈幕經過人臉則自動隱藏,也是應用了CV,這個小功能對B站核心價值之一的彈幕進行了進一步優化,大大提升了使用者體驗。
(3)瓶頸
- 目前在實際應用中採集到的資料還是不夠理想,光照條件、物體表面光澤、攝像機和空間位置變化都會影響資料質量,雖然可以利用演算法彌補,但是很多情況下資訊缺失無法利用演算法來解決。
- 在一幅或多幅平面圖像中提取深度資訊或表面傾斜資訊並不是件容易的事,尤其是在灰度失真、幾何失真還有干擾的情況下求取多幅影象之間的對應特徵更是一個難點。除了得到物體的三維資訊外,在現實世界裡,物體間相互遮擋,自身各部位間的遮擋使得影象分拆更加複雜。
- 預知識設定的不同也使得同樣的影象也會產生不同的識別結果,預知識在視覺系統中起著相當重要的作用。在預知識庫中存放著各種實際可能遇到的物體的知識模型,和實際景物中各種物體之間的約束關係。計算機的作用是根據被分析的圖象中的各基元及其關係,利用預知識作為指導,通過匹配、搜尋和推理等手段,最終得到對圖象的描述。在整個過程中預知識時刻提供處理的樣板和證據,每一步的處理結果隨時同預知識進行對比,所以預知識設定會對影象識別結果產生極大影響。
(4)提供相關方案的企業
- 曠視face++人工智慧開放平臺(提供人臉識別、人體識別、文字識別等技術方案) : ofollow,noindex">https://www.faceplusplus.com.cn/
- 商湯科技(提供人臉和人體分析、通用與專業影象分析、視訊處理等技術以及提供智慧安防、智慧終端、智慧金融等解決方案): https://www.sensetime.com/core
- 騰訊優圖AI開放平臺(提供人臉及人體識別、影象識別、文字識別等技術及天眼安防、天眼交通等解決方案): https://open.youtu.qq.com/#/open
- 百度AI開放平臺(提供人臉及人體識別、影象識別、文字識別、影象稽核等): http://ai.baidu.com/tech/imagerecognition
- 阿里雲(提供人臉識別、影象識別、影象搜尋、視訊識別等): https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
- 圖普科技(提供影象內容稽核、人臉和人體識別、文字識別、影象場景識別等技術方案): https://www.tuputech.com/
- 格靈深瞳(人眼攝像機、檢視大資料分析平臺、人臉識別系統等): http://www.deepglint.com/
2.2 語音互動
語音互動也是非常熱門的方向之一,其實語音互動整個流程裡包含語音識別、自然語言處理和語音合成。自然語言處理很多時候是作為單獨的一個領域來研究的,本文也將單獨介紹自然語言處理,所以此處只介紹語音識別和語音合成。
語音互動的最佳應用場景便是眼睛不方便看,或者手不方便操作的時候。“不方便看”比較典型的場景便是智慧車載,“不方便操作”比較典型的場景便是智慧音箱,這也是目前比較火的兩個細分方向。
一個完整的語音互動基本遵循下圖的流程:
(1)語音識別(ASR)
1)研究內容
語音識別的輸入是聲音,屬於計算機無法直接處理的模擬訊號,所以需要將聲音轉化成計算機能處理的文字資訊。傳統的識別方式需要通過編碼將其轉變為數字訊號,並提取其中的特徵進行處理。
傳統方式的聲學模型一般採用隱馬爾可夫模型(HMM),處理流程是語音輸入——編碼(特徵提取)——解碼——輸出。
還有一種“端到端”的識別方式,一般採用深度神經網路(DNN),這種方式的聲學模型的輸入通常可以使用更原始的訊號特徵(減少了編碼階段的工作),輸出也不再必須經過音素等底層元素,可以直接是字母或者漢字。
在計算資源與模型的訓練資料充足的情況下,“端到端”方式往往能達到更好的效果。目前的語音識別技術主要是通過DNN實現的。語音識別的效果一般用“識別率”,即識別文字與標準文字相匹配的字數與標準文字總字數的比例來衡量。目前中文通用語音連續識別的識別率最高可以達到97%。
2)衍生研究內容
- 麥克風陣列 :在家庭、會議室、戶外、商場等各種環境下,語音識別會有噪音、混響、人聲干擾、回聲等各種問題。在這種需求背景下可以採用麥克風陣列來解決。麥克風陣列由一定數目的聲學感測器(一般是麥克風)組成,用來對聲場的空間特性進行取樣並處理的系統,可以實現語音增強、聲源定位、去混響、聲源訊號提取/分離。麥克風陣列又分為:2麥克風陣列、4麥克風陣列、6麥克風陣列、6+1麥克風陣列。隨著麥克風數量的增多,拾音的距離,噪聲抑制,聲源定位的角度,以及價格都會不同,所以要貼合實際應用場景來找到最佳方案。
- 遠場語音識別 :解決遠場語音識別需要結合前後端共同完成。前端使用麥克風陣列硬體,解決噪聲、混響、回聲等帶來的問題,後端則利用近場遠場的聲學規律不同構建適合遠場環境的聲學模型,前後端共同解決遠場識別的問題。
- 語音喚醒 :通過關鍵詞喚醒語音裝置,通常都是3個音節以上的關鍵詞。例如:嘿Siri、和亞馬遜echo的Alexa。語音喚醒基本是在本地進行的,必須在裝置終端執行,不能切入雲平臺。因為一個7×24小時監聽的裝置要保護使用者隱私,只能做本地處理,而不能將音訊流聯網進行雲端處理。 語音喚醒對喚醒響應時間、功耗、喚醒效果都有要求。
- 語音啟用檢測 :判斷外界是否有有效語音,在低信噪比的遠場尤為重要。
(2)語音合成(TTS)
1)研究內容
是將文字轉化為語音(朗讀出來)的過程,目前有兩種實現方法,分別是: 拼接法和引數法 。
- 拼接法是把事先錄製的大量語音切碎成基本單元儲存起來,再根據需要選取拼接而成。這種方法輸出語音質量較高,但是資料庫要求過大。
- 引數法是通過語音提取引數再轉化為波形,從而輸出語音。這種方法的資料庫要求小,但是聲音不可避免會有機械感。
DeepMind早前釋出了一個機器學習語音生成模型WaveNet,直接生成原始音訊波形,可以對任意聲音建模,不依賴任何發音理論模型,能夠在文字轉語音和常規的音訊生成上得到出色的結果。
2)瓶頸
個性化TTS資料需求量大,在使用者預期比較高的時候難滿足。需要AI產品經理選擇使用者預期不苛刻的場景,或者在設計時管理好使用者預期。
(3)提供相關方案的企業
- 訊飛開放平臺(提供語音識別、語音合成、語音擴充套件等技術方案及智慧硬體以及多種行業解決方案): https://www.xfyun.cn/
- 圖靈機器人(提供多場景的聊天機器人解決方案): http://www.tuling123.com/
- 騰訊AI開放平臺(提供語音識別、語音合成等技術): https://ai.qq.com/
- 百度AI開放平臺(提供語音識別、語音合成等技術): http://ai.baidu.com/tech/speech
- 阿里雲(提供語音識別、語音合成、錄音檔案識別等): https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
- 追一科技(提供智慧外呼、及智慧機器人在多行業的解決方案): https://zhuiyi.ai/
2.3 自然語言理解(NLP)
(1)研究內容
自然語言處理是一門讓計算機理解、分析以及生成自然語言的學科,是理解和處理文字的過程,相當於人類的大腦。 NLP是目前AI發展的核心瓶頸 。
NLP大概的研究過程是:研製出可以表示語言能力的模型——提出各種方法來不斷提高語言模型的能力——根據語言模型來設計各種應用系統——不斷地完善語言模型。自然語言理解和自然語言生成都屬於自然語言理解的概念範疇。
自然語言理解(NLU)模組,著重解決的問題是 單句的語義理解 ,對使用者的問題在句子級別進行分類,明確意圖識別(Intent Classification);同時在詞級別找出使用者問題中的關鍵實體,進行實體槽填充(Slot Filling)。
一個簡單的例子,使用者問“我想吃冰激凌”,NLU模組就可以識別出使用者的意圖是“尋找甜品店或超市”,而關鍵實體是“冰激淋”。有了意圖和關鍵實體,就方便了後面對話管理模組進行後端資料庫的查詢或是有缺失資訊而來繼續多輪對話補全其它缺失的實體槽。
自然語言生成(NLG)模組是機器與使用者互動的最後一公里路,目前自然語言生成大部分使用的方法仍然是基於規則的模板填充,有點像實體槽提取的反向操作,將最終查詢的結果嵌入到模板中生成回覆。手動生成模板之餘,也有用深度學習的生成模型通過資料自主學習生成帶有實體槽的模板。
(2)應用場景
自然語言處理作為CUI(Conversational User Interface,對話式互動)中非常重要的一部分,只要是CUI的應用場景都需要自然語言處理髮揮作用。除此之外,機器翻譯、文字分類也都是自然語言處理的重要應用領域。
(3)瓶頸
1)詞語實體邊界界定
自然語言是多輪的,一個句子不能孤立的看,要麼有上下文,要麼有前後輪對話,而正確劃分、界定不同詞語實體是正確理解語言的基礎。目前的深度學習技術,在建模多輪和上下文的時候,難度遠遠超過了如語音識別、影象識別的一輸入一輸出的問題。所以語音識別或影象識別做的好的企業,不一定能做好自然語言處理。
2)詞義消歧
詞義消歧包括 多義詞消歧和指代消歧 。多義詞是自然語言中非常普遍的現象,指代消歧是指正確理解代詞所代表的⼈或事物。例如:在複雜交談環境中,“他”到底指代誰。詞義消歧還需要對文字上下文、交談環境和背景資訊等有正確的理解,目前還無法對此進行清晰的建模。
3)個性化識別
自然語言處理要面對個性化問題,自然語言常常會出現模凌兩可的句子,而且同樣一句話,不同的人使用時可能會有不同的說法和不同的表達。這種個性化、多樣化的問題非常難以解決。
(4)提供相關方案的企業
- 訊飛開放平臺(提供自然語言處理): https://www.xfyun.cn/
- 圖靈機器人(提供多場景的聊天機器人解決方案): http://www.tuling123.com/
- 騰訊AI開放平臺(提供基礎文字解析、語義分析等技術): https://open.youtu.qq.com/#/open
- 百度AI開放平臺(提供語言處理基礎技術、文字稽核、機器翻譯等): http://ai.baidu.com/tech/nlp
- 阿里雲(提供情感分析、實體識別、機器翻譯等): https://ai.aliyun.com/?spm=a2c4g.11174283.1146454.294.167d1039G3kvVD
- 追一科技(提供智慧外呼、及智慧機器人在多行業的解決方案): https://zhuiyi.ai/
小結
這是文章的上半部分,主要講了 AI 通識和 AI 應用領域,下半部分主要講AI 技術,敬請期待~
本文由 @樊帆fan 原創釋出於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議