36氪研究企業調研 | 人工智慧翻譯企業-新譯科技
文 | 36氪研究院 李曉曉
報告要點:
人工智慧翻譯目前是機器翻譯的兩大流派之一,主要通過以深度學習演算法為基礎的神經網路增強翻譯的流暢性
機器翻譯(Machine Translation),是利用計算機把一種自然語言轉變為另一種自然語言的過程,一般指自然語言之間句子和全文的翻譯。 智慧翻譯 ,就是充分計算機語言學、人工智慧和數理邏輯學科技術通過特定的計算機程式將一種書寫形式或聲音形式的自然語言,翻譯成另一種書寫形式或聲音形式的自然語言,並通過機器、參與的人和網際網路構建出一個智慧的生態系統。
機器翻譯可運用場景廣泛,語音、語義、影象識別技術類企業發展成熟
隨著人工智慧文字技術的不斷髮展,智慧翻譯可以與相對比較成熟的語音、影象等技術進行深度結合,拓展翻譯的應用場景。目前國內機器翻譯領域中,除了BAT等巨頭佈局的、用以滿足自身各個模組需求的強技術應用的翻譯公司,大多數是學術派建立的實驗室轉向公司經營型別的,在技術上相對發展較快。這些企業既為B、G端提供定製化翻譯系統和雲平臺,同時也通過翻譯耳機等智慧硬體產品佈局C端市場。
新譯科技採用限定性神經網路智慧翻譯的技術,為B、G端客戶提供人工智慧翻譯解決方案的同時通過耳機等智慧硬體產品開發C端市場
新譯科技成立於2014年12月,一直不斷研究和完善自然語言處理技術,聚焦AI文字智慧翻譯,服務於語言服務、專利、法律、醫療和金融行業,構建溝通無障礙服務體系。2017年公司智慧翻譯產品通過國家科技成果認定,並獲得深圳青年技術獎,以及人工智慧最高獎——吳文俊人工智慧科學技術獎。
新譯科技先後成立北京、深圳、新疆和澳門公司,以軟、硬體為載體,為國家“一帶一路”多語傳播平臺建設提供服務;為金融、專利、法律、醫學等垂直領域提供全球化基礎性多語溝通提供服務;為政府公共服務、旅遊服務、會議服務建設事業做貢獻,並不斷完善多語大資料平臺。
以下為報告正文 (完整版報告點此 ofollow,noindex">下載 )
1.行業概況
1.1 人工智慧翻譯是機器翻譯發展的最新階段
機器翻譯(Machine Translation),是利用計算機把一種自然語言*轉變為另一種自然語言的過程,一般指自然語言之間句子和全文的翻譯。機器翻譯運用語言學原理,通過識別語法、詞彙,呼叫儲存詞庫,自動進行對應翻譯。但由於這種基於統計模型的機器翻譯採用的是規則的對應翻譯的方法,因此當各種語法、詞法、句法發生變化或者不規則時,每一步的錯誤率會像滾雪球一樣使最終結果有很大的偏差;同時,調序模型的不完善覆蓋不到全域性特徵也會導致統計機器翻譯閱讀流暢性差。所以在最新的技術中主要就是要打破規則性翻譯帶來的生硬的、閱讀不暢的問題,使句子變得更加通順,符合人們講話的思維。
標註*:自然語言在這裡泛指所有由人類創造和使用的語言。
圖示:基於統計模型的機器翻譯
2016年前後出現的神經網路機器翻譯(Natural Machine Translation)能夠訓練一張可以從一個序列*對映到另一個序列的神經網路,輸出的可以是一個變長的序列,在對話和文字概括方面獲得較好的表現,能夠解決機器翻譯的流暢性差等問題。NMT其實是一個encoder-decoder系統,encoder把源語言序列進行編碼,並提取源語言中資訊,通過decoder再把這種資訊轉換到另一種語言即目標語言中來,從而完成對語言的翻譯。但是,神經網路翻譯機器有時候會出現漏譯、過譯、缺少語義資訊等問題。
標註*:文中序列即指輸入和輸出的語句。
圖示:基於神經網路的機器翻譯 來源:36氪研究院根據公開資料整理
圖示:智慧機器翻譯生態貼圖
圖示:機器翻譯發展歷程 資料來源:36氪研究院根據公開資料整理
1.2 不斷革新的技術和廣闊的市場需求是人工智慧翻譯行業發展的主要驅動力
機器翻譯經過半個多世紀的發展,現在已經形成一個既包括傳統的、基於例項的機器翻譯(EBMT),也包括目前主流的SMT、NMT等技術在內的綜合線上翻譯服務系統生態圈,每個系統的革新都伴隨著技術的變革和各種需求的推動。
1.2.1 語音識別、語義識別、影象識別和大資料演算法是關鍵技術驅動力
現在的人工智慧和大資料技術能夠為翻譯系統帶來新的變革,例如突破規則性的機器翻譯只擅長短句翻譯的侷限性,在原始資料量夠大的情況下通過增加網路層數提高NMT的運算效果等。但是人工智慧翻譯依舊存在較大的難點,需要新的技術來解決。
圖示:統計模型與神經網路模型的優缺點對比\n來源:36氪研究院整理
1.2.2 市場需求和人才稀缺是現在智慧翻譯行業的主要驅動力
隨著“一帶一路“政策的開放,國內外的外交、貿易、旅遊往來頻繁,國內B端G端出海業務越來越多,對翻譯人員以及軟硬體的需求量也大幅增長,極大地推動了翻譯企業的業務發展。
另外,我國的細分行業專業的翻譯人才稀缺、人才專業性不強的現狀也不能滿足市場的巨大需求,比如工程類、醫療類、高新技術類等科目的翻譯專業缺乏、小語種學科不夠豐富都從側面推動了智慧翻譯的發展。
最後,人們的消費水平以及生活質量大幅度提高,對外來的文化和語言學習已經成為生活必要的技能,而且追求新技術產品成為現在新青年的生活標誌,這也構成了包括智慧翻譯APP、翻譯筆、手錶、耳機等在內的智慧翻譯產品C端巨大的市場需求。
1.3 機器翻譯隨著人工智慧技術應用的不斷深入,將會越來越智慧,應用場景也會愈加廣泛
1.3.1 人工智慧翻譯國內外現狀
目前,國內外做智慧翻譯的企業側重點有明顯的差別。國外的企業側重底層研究、重技術研發,整體而言技術先進精湛,但是展現形式相對較弱、產品型別較少,應用場景和範圍也較少。而國內的智慧翻譯企業則更加側重上層應用,產品型別較為豐富、應用較廣泛,使用者基數大與資料量較大。這一方面是由於暫時國內沒有資料保護相關條例,另一方面是智慧財產權保護意識較弱。
圖示:國內外產品及技術對比\n來源:36氪研究院整理
1.3.2 市場規模及投融資現狀
據中國智慧製造網統計,2017年全球僅傳統的翻譯產業規模就達到445億美元,2020年有望突破500億美元。如果能夠充分利用人工智慧等前沿科技的推動力,繼續釋放出龐大的潛在需求,翻譯市場將迎來更大規模的爆發。據鯨準資料顯示,目前國內做機器翻譯的企業有22家,其中屬於人工智慧翻譯的企業有13家,主要包括五大型別的企業:語音同傳翻譯、影象翻譯、穿戴翻譯工具(耳機、手錶等)、智慧翻譯系統以及定製化方案提供商。其中,有融資記錄的企業佔五成,處在A輪級的企業相對較多,主要的投資機構有微軟創投、Funders Club、力合科創、凱泰資本、博將資本等。
接下來,對人工智慧翻譯的需求將隨著全球化的加速不斷增加,市場空間將越來越大,B端和C端等細分領域的應用也會越來越廣泛;另外,深度學習演算法的深度應用將為智慧翻譯提高語義理解的水平,提供更接近人類自然語言表達的翻譯成果。
圖示:各階段獲投機器翻譯企業佔比 資料來源:鯨準,36氪研究院整理
1.3.3 機器翻譯的優勢及痛點分析
機器翻譯可以實現世界上不同國家不同語言間的低成本交流,其主要優點體現有:成本低,相對於人工翻譯來說,機器翻譯需要人工參與的程式少,基本上由計算機自動完成翻譯;易把控,機器翻譯的流程簡單快捷,在翻譯時間的把控上也能進行較為精準的估算;速度快,計算機程式的執行速度非常快,其速度是人工翻譯速度不可比擬的。
儘管機器翻譯技術越來越成熟,但是翻譯大行業依舊存在一些痛點。首先,市場的需求量很大,但是翻譯人力不足;其次,高校教育對語言類學生的培養並不能覆蓋全行業人才的需要,學校裡教的偏文科型別,解決不了工科類企業的翻譯需求;然後,C端的產品型別不夠多樣化,目前最多的是穿戴翻譯耳機;最後,行業內沒有界定標準的仲裁機構和統一的評價標準體系,何為準確的“信達雅”標準值得期待。
另外,還有一些技術上的痛點。目前的技術可以將文字、語音和影象識別並翻譯出來,但是語義的識別和翻譯依舊不能夠精準表達和原文主題思想一樣的意思,這方面還需要技術的突破;另外,在實現產品的離線化和行業資料規模化方面的技術也相對不夠完善,目前缺乏能夠應用在各個場景下的多種類語言互相翻譯的離線翻譯器。
最後,由於國內對於資料安全保護這方面的法律條文比較稀少,翻譯系統和應用產生的大量使用者語料資料得不到保護,因此軟體付費、資料去中心化、實現資料共享顯得尤為緊迫。
1.3.4 行業未來發展趨勢
目前,機器翻譯在具體應用上一般分為四種,分別是:詞典翻譯軟體、計算機輔助翻譯軟體、機器翻譯軟體以及智慧硬體。而隨著全球化和網際網路迅速發展,跨語言的網路資源不斷呈幾何級數增長,迅速改變著資訊傳播的方式,也極大地刺激了全球人工智慧翻譯產業的發展。
總得來說,人工智慧翻譯的發展將呈現以下趨勢:實用化,未來翻譯將以商業化發展為主要方向,並且實現離線化、多語言、全域性化;去中心化,實現資料共享;網頁端向移動端轉移,提高使用便捷度;安全化,形成資料保護;垂直領域結合緊密化,形成行業翻譯語料資料庫;多模態化,產品多模態化能夠實現文字、語言、影象全翻譯,商業多模態化平臺則能夠提供給客戶定製化的解決方案。未來,將會有越來越多的傳統翻譯機構轉型利用人工智慧技術做智慧翻譯,提高翻譯效能降低人工成本。
2. 新譯科技
新譯科技成立於2014年12月,不斷完善自然語言處理技術,聚焦AI文字智慧翻譯,一直為語言服務、專利、法律、醫療和金融行業服務,構建溝通無障礙服務體系。2017年公司智慧翻譯產品通過國家科技成果認定,並獲得深圳青年技術獎,以及人工智慧最高獎——吳文俊人工智慧科學技術獎。公司成立以來以國際化的視野為目標,先後成立北京、深圳、新疆和澳門公司,目前公司把智慧翻譯以軟、硬體為承載體,服務於國家“一帶一路”多語傳播平臺建設;為金融、專利、法律、醫學等垂直領域提供全球化基礎性多語溝通服務;為政府,旅遊,會議等服務,並不斷完善多語大資料平臺。
2.1 新譯科技獨有的技術支援使翻譯更便捷
限定性神經網路機器翻譯:限定性神經網路翻譯是新譯科技自主研發的最新翻譯技術,它能夠干預輸入的句子,然後讓底層神經網路的模型引數進行調整,較為準確地還原干預部分的譯文表達。
專有翻譯引擎:新譯科技的智慧翻譯系統擁有大量資料支援,是基於檢索和神經網路的自主翻譯引擎,高穩定性的架構可穩定服務全球使用者。新譯科技的智慧翻譯能夠考慮到個人使用者和企業使用者對專有翻譯引擎的需求,以及對資料安全的顧慮。新譯科技搭建的智慧翻譯系統除了面向通用領域外,也面向主流專業領域:專利、法律、議會報告、電商、醫學、航空航天、軍事等。
CAT輔助翻譯:新譯科技提供定製化伺服器和雲端兩個版本供使用者選擇,使用者享受24小時企業級安全保證。受保護的企業帳戶擁有靈活的系統管理許可權,可按使用者、按角色來自定義訪問級別。
專業語言檢索:新譯科技語言服務平臺是面向政企及譯員,提供全線上多語言翻譯系統、語言資產交易和定製智慧語言機器人的全綜合服務平臺。平臺從交易的安全便捷、資源共享和智慧應用等方面,促進企業和個人對語言多樣化需求體驗的全面提升。
語音識別、影象識別、問答系統:新譯科技擁有智慧的垂直語音識別和流暢的語音合成,支援多種主流語言識別;擁有大量影象資料,專注文字識別,深度學習作為底層演算法支援。可瞬間識別影象中的文字,結合智慧翻譯,實現影象瞬時翻譯;新譯科技的語義分析系統,允許使用者以自然語言的形式查詢各行業資訊,為使用者提供準確、簡潔的答案。
圖示:新譯科技在AI領域涉及的技術與應用\n來源:36氪研究院根據公開資料整理
2.2 面向B端、G端、C端的軟硬體產品體系完整全面
新譯科技的B端和G端產品主要是面向大型央企、軍工企業、網際網路媒體、大資料行業及政府機關等提供軟硬體翻譯產品。軟體產品有定製化機器翻譯(限定性神經網路翻譯)、輔助翻譯系統以及智慧翻譯外掛等。
定製化機器翻譯是一個混合神經網路翻譯引擎,該技術不僅提高了翻譯的速度與準確率,還能統一管理企業語料,給企業特定的資料和管理賬號,滿足個性化、精細化、專業性的需求,達到保護企業資料隱私和資料安全保護的效果。
輔助翻譯系統包含定製化的伺服器和雲端雙重方案,它能夠提供與之配套的所有產品,可以抓取網際網路端爬不到的企業訓練資料,還能借助海外資料,打破局域的限制,打通管理員和譯員的兩端溝通通道,增進新的功能創新,解決翻譯的質量、效率與成本難題。
智慧翻譯外掛包括有辦公翻譯外掛和網頁翻譯外掛,辦公翻譯外掛可以在WPS和office兩大辦公系統上使用,滿足多語言文件的快速轉換和閱讀;網頁翻譯外掛支援各大瀏覽器網頁翻譯,一鍵轉化母語閱讀。硬體產品有翻譯盒子,可以翻譯十幾種主流語種,已經實現離線化,可快速瀏覽翻譯文字,減少溝通阻礙。
新譯科技的C端產品主要面向大眾消費者,包括線上文件翻譯、PC端翻譯、智譯APP以及穿戴式翻譯產品耳機和手錶。
線上文件翻譯支援10種常用格式,支援通用領域、專業領域,價格低、質量高、速度快。
智譯APP可實現同傳、語音、文字多語智慧翻譯,應用在旅遊、社交、住宿、商務等領域。
圖示:新譯-智譯APP
新譯翻譯耳機已經在國外上市,包括兩隻耳機、一個充電盒以及一個專用APP,基於自研的智慧演算法,可實現實時喚醒耳機,同時判定發言語種,無需手動切換操作,經過初始配置後,使用者只需要將另一隻耳機分享給對方,即可開展自然、自由的交流。
圖示:新譯智慧翻譯耳機
圖示:新譯科技產品體系 來源:新譯科技
2.3 新譯科技擁有較強的技術優勢和資源
技術優勢:四個實驗室聯合研究,提供前沿技術支援。澳門大學自然語言處理與葡中智慧翻譯(NLP2CT)實驗室、葡萄牙里斯本L2F語音實驗室、美國卡耐基梅隆大學LTI實驗室的最新的自然語言處理技術、新譯-澳大-清華人工智慧研究院這四個實驗室為新譯科技提供技術人才和原創技術;另外,新譯科技會將研究課題帶到國外實驗室共同開發新技術,在擁有更多的智慧財產權的同時,還能壓縮新譯科技內部的研發成本。
圖示:新譯-澳大-清華人工智慧研究院
資源優勢:首先,企業最初的語料來源於澳門大學提供給創業企業的平行和單語語料庫;其次,藉助B、G端服務以及軍工體系下的自有云伺服器上的資料形成大語料資源庫。
圖示:澳門大學自然語言處理與葡中智慧翻譯(NLP2CT)實驗室
3.商業模式
新譯科技的商業模式主要有兩種:一種是專案制,專案制就是單一售賣某一種翻譯系統,採用一次性買斷收費的模式;一種是多模態化形式,提供給客戶一個包含所有產品的平臺,客戶在平臺庫裡選擇自己所需要的翻譯系統,滿足客戶各個部門或各個領域所需要的產品形態和專業度,具有定製化和個性化的特點。其直接盈利形式有三種:第一,定製化服務收費,主要是機器翻譯、輔助翻譯等文字翻譯應用層衍生品開發服務;第二,賦能型服務費API,例如機器人、手機端特定的收費專案;第三,自有產品,就是文字翻譯和語言翻譯衍生品及服務費。
在未來,新譯科技還會在以B、G端產品為主的同時,向C端硬體產品延伸,為普通消費者提供多樣化的翻譯產品。
4. 公司運營戰略及資料
新譯科技的運營策略主要分產品和品牌兩個方向。未來新譯科技的產品主要以B、G端軟體系統為止,C端硬體為輔,低調佈局國外旅遊市場,高調佈局國內雲端產品。現在內部正在搭建運營團隊,借B端打造C端線上產品,今年在國內首先由三大運營商帶動C端產品銷售,通過運營商集中採購,然後作為顧客選購通訊套餐做贈送禮物的方式開啟市場。此外,新譯科技的產品也將逐漸從描述性語言和非描述語言兩方面達到信達雅的境界,新譯科技將會從以下四個方面提升翻譯水平:提升限定性神經網路翻譯技術、增強互動式輔助翻譯水平、提高語義翻譯的技術、改進自動修正技術提高後編譯能力水平。品牌也主要由C端產品的上市來帶動。
新譯科技的目前擁有30多家央企和政府機構等客戶,提供給他們翻譯軟體系統,此部分收入佔全年總收入的70%-80%。去年的總收入達8000萬,今年上半年已經實現億元營收,預計今年利潤達1500萬。企業盈利能力較強,營收增長速度較快。
資料來源:新譯科技
5. 公司團隊
新譯科技目前擁有近百人的團隊,核心技術研發人員主要在清華大學自然語言處理研究中心,澳門團隊主要開發機器翻譯的各個衍生品,深圳團隊做自然語言處理底層設計,北京團隊負責前端、產品和銷售。
田亮,新譯科技CEO,澳門大學博士,主攻自然語言處理機器翻譯課題研究,領團隊充分利用機器翻譯、語義檢索、神經網路、語音識別等自然語言處理技術,構建新型的語言生態服務圈,重構新型語言生態商業模式,變革當前翻譯行業效率低下和全球溝通不便捷的問題。
關於36氪研究院
36 氪研究院是 36 氪子品牌,專注於一級市場的行業研究,通過定性定量結合的方式研究新興行業與企業,歡迎大家積極與我們交流討論。
分析師: 李曉曉 [email protected] Wechat:15011504594 ; 長期關注教育、 人工智慧行業,並關注文娛、消費等熱點領域。