大資料與行業轉型:創業公司應更關注細分領域
隨著“一帶一路”新絲路的戰略實施,西安再一次將全球目光聚焦到這座歷史文化名城上來,成為中國走向世界的契機。隨著2017年硬科技創新大會的成功舉辦,硬科技成為西安市的新名片。由西安高新技術開發區與 ofollow,noindex">清科集團 聯合舉辦、中科創星協辦的2018“一帶一路”硬科技產業投資高峰論壇於2018年11月8日在西安召開。打造硬科技應用典範,激發科技創新活力,加速硬科技的聚集。
信中利 資本集團董事總經理、高階 合夥人 劉朝晨,中科聞歌創始人、董事長王磊圍繞《大資料與行業轉型》這一議題進行了深入探討。以下為對話精華,經西安創業網(www.XianDream.com)編輯:
劉朝晨: 今天第三次來到西安,充分感到了西安這兩年在整個創新創業方面變化,不光是政府引領,包括業界,投資界,企業界再到民間非常踴躍,我和王總很有幸能在硬科技這麼重要的板塊裡面做一個論壇討論的開場,我們先做一個簡單的自我介紹。
王磊: 我是來自於中科聞歌,以前一直做大資料方面的技術研究工作,後來帶著團隊的成果出來創立了中科聞歌。中科聞歌主要定位做大資料的基礎平臺,以及和行業結合的相關應用,在這個領域裡我們有十多年相關的積累。
劉朝晨: 我來自一家投資機構叫信中利,我們從99年成立到現在已經有19年的時間,投了有200多家公司,這裡面不乏在資訊科技產業的龍頭企業,包括細分的大資料行業的企業。我們覆蓋的範圍非常廣泛,從資訊科技到醫療健康,到文化娛樂,到高階製造,到節能環保,到新材料,我們已經完成了40多個基金。我們這裡面很多標杆的專案大家都很瞭解,你們去看電影的 華誼兄弟 ,你們每天用的百度,大家體檢的 美年大健康 ,包括現在新能源汽車的未來汽車,我們已經有很多上市,全球和資本市場有幾十家企業。
回到主題,組織者給我們安排的是探討大資料,我知道王總是行業的專家。大資料這個詞已經被談了很多年,大資料我想很多人不見得有特別深刻的理解,經常說有幾個V,我不知道王總是不是從專業的角度,大資料的四V包含哪些方面。
王磊: 四個V就不講了,大家對大資料的理解,很多是用這四個V來概括。現在大資料發展到了一個新的階段,在上一個階段我們投入了大量雲端計算裝置,已經儲存了大量的資料和資訊,現在需要從資料感知邁向計算認知,重點是利用好資料。
這幾年我確實也看到一個趨勢,無論政府也好,企業也好,非常把資料的價值挖掘出來,怎麼樣利用資料現在已經成了各行業高度關注的課題,剛才主持人提到的數字中國,也是希望充分分析和利用大資料,進一步到可以支援科學決策。
我看了一下2017年官方統計資料,大資料這塊的市場產值已達到4700億的規模,資料積累體量已經到了數十ZB級別,需要我們在利用、分析以及為決策服務進行進一步突破。
劉朝晨: 我給大家稍微補充一點。大資料大家聽的比較多,以為好像資料多就是大資料,其實這是一個不是很準確的概念。因為幾個V一個是多,數量巨大,但是光是巨大的資料,如果沒有海量的速度更新。第二個非常關鍵的就是這和我們經常講的速度是一個更專業的詞彙,是一個向量的詞彙,要求大量的更新和不斷進行迭代。還有一個重要點,如果你的資料只是在一個細分行業裡積累了很多,價值非常有限。第三個V就是廣度,多樣化。最後就是談到了資料最終是不是具備多大的核心的價格。前三層的東西積累出來可以產生大資料產生的價值。
在座的每一個人都有手機,你的手機裡都裝有幾十個APP,在每時每刻,每個人都是資料的產生者。今天我想跟王總探討幾個關鍵問題,你們起源是中科院 自動化 所,尤其是在於跨媒介,媒體,社會化媒體的資料聚集和挖掘,包括在自然與深度分析方面,同時也涉及到。
我想問幾個問題,核心一點是大資料大家都去談到人工智慧,很多專業的人說現在的人工智慧還是相對的偽人工智慧,其實大資料是很實在的,只不過現在的人工智慧是因為我們具備了更高更強的算力,在算力的基礎上我們對大資料處理的能力和效率和效果進行了高速的迭代和發展,但是依然停留在計算這樣一個層面。王總怎麼看?
王磊: 劉總的總結,對大資料說得非常全面的。劉總也提到人工智慧現階段,目前還沒有想象的那麼神奇,它需要一個發展階段,個人覺得大資料也是,需要逐步發展。
早期大部分大資料是簡單統計層面,或是基礎資料儲存平臺層面,但是很多問題都不是統計層面上簡單可以解決的,這樣去定位和理解大資料還缺乏一些內涵,大資料現在最難以解決難題應該是認知層面,其中劉總提到的語義分析就屬於這個範疇。這幾年很火的AlphaGO,大家都知道戰勝了人類的棋手,它的勝利顯然是高階的,但離普適智慧還有距離,比如讓機器來做一個閱讀理解的題,就比下圍棋要難很多,因為需要對語義進行深度認知和推理,挑戰是很大的。我認為大資料下一階段應該要在資料利用層面,去解決一些深度認知計算問題,從感知到記憶再到推理,尤其是記憶和推理階段,很多工作還需要做,無論是研究界,還是產業界,尤其是和行業深度結合,挑戰還非常大。
劉朝晨: 王總講的我非常認同,其實對深度的語義的理解和學習,這樣一個經驗模型的建立,可能是在大資料的基礎之上,真正往人工智慧的決策方面需要突破的關鍵點。現在已經是海量了,因為時間是非常有限的,但是每天你被大量的資料所充斥。目前主要應用的熱點,更廣泛的來看這個行業,現在大資料應用的熱點,尤其對現在產業的進一步的升級,或者創新,您覺得主要的機會在哪幾方面?
王磊: 這個問題在座搞投資的很多,包括劉總估計也有很好的答案。我本身是做技術研究出身的,我簡單談談我的認識。大資料已經歷了十年左右的發展,前期很多大資料公司做平臺,比如說把資料存起來,這一塊已經算是告一段落,當然做精做細也有很多機會,比如今年,美國公司上市的公司ElasticSearch,也是算是超級獨角獸,它解決的問題就是解決大資料搜尋問題,搭建企業級資料搜尋平臺,獲得了很好的收益。未來大資料板塊一定是跟領域深度結合,現在我們可以看到,無論是我們做泛媒體資料,還是司法大資料、旅遊大資料、以及政務大資料我覺得都是有機會的,它的機會在於與這些領域模型的深度結合。泛泛大資料僅僅可以支援非常粗淺的應用,但是對某些特定領域的巨集觀決策把握,再到中觀分析,再到微觀細節模式發現,必須要再進一步在技術層面上和領域深度建模結合在一起,人工智慧技術的結合也非常重要,讓大資料具有聰明的計算能力,使處理資料更加智慧化。總體來說,深刻改變行業,並能起到應有作用,才是大資料的價值所在,這些方面是比較有機會。
劉朝晨: 你們做的這塊,你們覺得基於大資料,在跨媒體行業,從行業的產業應用,應用大資料,對他們業務的創新起到什麼樣的輔助性的作用,帶來什麼樣的機會?
王磊: 我先說一下我們的業務,我們定位是做泛媒體大資料,主要是在幫助記者去生產更多的內容是我們的核心業務。大資料和行業結合,我們做了很多案例,講個具體例子,在智慧城市方面,我們做的平臺可以把物聯網裡的物聯裝置資料提取過來,通過大資料一張圖分析裝置相關狀態,並對他的故障率進行預測分析,目前已應用在國內一些城市中。當然還有一些更加深度應用案例,就是基於認知計算的語義理解,我們也做了相關的工作。上週五CCTV《機智過人》節目裡面,“AI法官”就是這樣的一個應用,一個案件出來以後,律師研究案件是非常耗費力氣的,包括公眾要了解案件情況,確定犯了什麼罪和怎麼量刑,AI法官就是幹這個事情,還獲得了中國計算機學會的獎勵,我們能夠幫助律師和法官非常方便地,基於案情描述關聯歷史判例,給出定罪依據和量刑情況,取得了較好的成效,其實AI法官是非常難的,因為要及其自動提取案情的關鍵描述,最後再做推理給出量刑判定,需要解決深度語義理解問題。
劉朝晨: 你講的是輔助的對於一些案件的案例性的分析,這個確實很有用。衍生過來它在醫療,我們知道大資料的採集對醫療基本的檢測,尤其是一些醫療片子的積累,包括進行對比,機器通過圖象識別來進行大量的海量分析。其實資料是多維的,有聲音、文字、影象、動態的。再就是從個性化的學習,在我們不斷收集各種個體,包括K12的過程中,他們每個個體產生的通用性樣本之後,其實可以根據你個人的反饋很精準的對每個個體的學習能力和學習的曲線進行繪製。可以通過機器有輔導性的給它進階性的推送完善他的課程。這些和我們生活中各個領域的滲透都是非常多的。這裡面存在一個問題,海量的資料讓我們更方便,無論是個人,還是我們所在的機構,成為一個受眾。但同時因為我們不斷的產生資料包括我們的機構也在同步的產生資料,並且被整個社會裡面專業的公司,第三方機構,管理部門不斷的獲取,獲取的過程中進行加工和分析,同樣我們也變得更加的透明。在這樣的一個過程中,其實是變數的關係。我知道你們去年拿了兩輪以上的投資,你對於臺下的創業者有什麼建議,我們如何在傳統行業裡利用好大資料,以及在這個時代賦予的機會,幫助他們在傳統產業裡進行更好的提升,增強競爭呢?
王磊: 這個問題劉總提的非常好,我也分享我個人的體會,我覺得大資料是非常硬的硬科技,我剛才講到海量資料統計和淺層分析其實已經是老一代技術,大資料如果停留在這個層面,它的創新度是及資料庫技術的。
如果大資料創業這塊,非常重要的一點是要把行業問題理解清楚,做好問題定義,就是通過大資料可以得到什麼樣相對深刻洞察,可以支撐管理和決策,這點業務定位要做好。從創業角度來講,我認為大資料的公司是需要磨鍊的,前面的老師也講到硬科技需要時間的積累和磨礪,大資料的核心點是怎麼樣去挖掘分析,有很多難點問題需要我們去攻克。如果要創業,必須要選準一個大資料領域的難點和痛點問題,同時還要積累很好的人才隊伍,做好打持久戰的準備,來把這個事情做好。
劉朝晨: 因為我做投資,我也跟大家分享一點。前天我要來會議之前,正好我投資的一家機構已經收購了中國的一家上市公司,要進入到在大資料行業的重組和重要佈局。我們非常欣喜的看到這家機構的動作,因為它不是在某一個領域做穿透性大資料,包括模型建立和產品研發的機構,它是一個做平臺的機構。
在大資料行業裡面是有很多的機會,但是在過去將近5年以上的時間,基本上無論是做基本的平臺,還是在剛才談到的媒體、公共安全、醫療衛生、工業製造、教育等等各個領域進行縱向的,細分平臺的搭建和縱向的服務挖掘服務的公司,以及相關的資料,首先要有采集,第二要有彙集,第三要有重新的分類,篩選,模型的建立,然後要進行應用,還要迴圈性的儲存,反饋,形成閉環。
在每一個鏈條中都有相應的公司做支援,在各個領域裡,其實在過去五年以上的時間,都被各種VC機構,天使機構,PE機構進行了大量的佈局。應該說生態已經是非常的豐富了,留給創業者的空間是比較有限的,但是依然有機會,為什麼?因為大的平臺,大的生態已經建立了,你的機會在於你的核心競爭力在生態體系細分裡面的切入,但是要具備非常強的在上下游和周邊生態的整合和互動加速發展能力。也就是你如何更好的在生態裡面定位你的核心價值和你最大化利用生態提供的生態空間,高速度來轉化幫助你的核心價值進行重塑發展這樣的機會把握的能力。只有這樣的公司,可能在細分領域裡才能夠脫穎而出,而且速度是非常快的。
最後,我想問一個問題,最近因為國家公安系統對市場上很多做資料,還有服務,還有包括網際網路精準營銷和推廣的公司進行了整治,甚至已經調查了一些公司,而且在深度調查一些公司。甚至是涉及到公民很多隱私性的資料在商業性應用之後不被告知的商業化的再銷售再應用,其實已經涉及到中國的刑法。王總能不能給行業裡的人提一些建議,如何在資料的隱私保護上來提高我們的意識,並且在發展上,我們還有哪些關鍵點需要快速的進行完善呢?
王磊: 劉總提到資料隱私保護是大家普遍關心的問題,我們公司主要是做行業資料層面,在大資料涉及個人隱私也僅僅有一點粗淺瞭解。大資料隱私保護方面,關係到方方面面,關係到每個人的切身利益。我覺得,大資料相關的公司應該要站在做好保護好每一個使用者資料的立場出發,去考慮和設計業務,用隱私的資料來謀取利益是不合適的,我們從業者需要對自己提出這麼一個要求。另一個層面,國家也一定會在這個方面出臺相關的政策,其實大家也注意到,現在歐盟和美國這塊都有了相應的舉措,我相信在保護隱私方面會有好的解決方案。
劉朝晨: 我們每個人都作為資料的生產者,我們在的機構也都作為重要的資料的生產者,同時我們也是使用者。你不光要注意到自己隱私資訊的保護,你更重要關注到當你從各種渠道獲取的資訊,如果你在進行廣播和傳播,尤其在你進行商業加工和使用的過程中,其實第一點就是資料的來源的合法性,對它方資料資訊隱私的保密性最基本的意識。因為整個生態的建立在法制最基礎是變得越來越關鍵了。大家越來越意識到資料本身的價值,資料本身的價值還是一個存量性的東西,有可能還是一個靜態的東西,這需要我們各個行業的從業者更加智慧和巧妙的抓住在資料存量和靜態的基礎上如何進行更好的開發、利用,合理合法的開發利用的機會,才有可能成為你自己所從事的創業企業,或者事業,或者業務的一個非常好的助力提升的工具,不光讓自己受益,同時兼顧受益於他人。