語音識別+歌聲合成，思必馳的新產品想讓普通人“讀詩成曲”

物聯網 · 發表 2019-01-29 09:04:12

摘要：在小年夜，中央電視臺《經典詠流傳》第二季節目中出現了一款“讀詩成曲”的線上互動小工具，使用者僅需要朗讀一段詩詞，就可以聽到用自己聲音演唱的經典詩詞唱段。那這是怎麼實現的呢？原來，“讀詩成曲”的背後是思必馳提供的個性化歌聲合成演算法。歌聲合成技術是語音合成（TTS,即 Text to ...

在小年夜，中央電視臺《經典詠流傳》第二季節目中出現了一款“讀詩成曲”的線上互動小工具，使用者僅需要朗讀一段詩詞，就可以聽到用自己聲音演唱的經典詩詞唱段。那這是怎麼實現的呢？

原來，“讀詩成曲”的背後是思必馳提供的個性化歌聲合成演算法。歌聲合成技術是語音合成（TTS,即 Text to Speech)的衍生品，其關鍵區別在於韻律預測模型不同。在普通TTS系統中，通常有個韻律模型來根據句子的內容和語調環境預測每個音素（音節）的時長和音高曲線。在歌聲合成中，這個韻律模型則更換成由樂譜來預測每個音素（音節）的時長和音高的歌曲韻律模型。最終的生成過程仍然跟語音合成類似，將韻律引數和頻譜引數結合，生成歌聲。

在“讀詩成曲”中，韻律預測模型可以使得機器根據人說話的語調合成歌曲，且根據唱段的韻律和節奏調整音調，這又是如何實現的呢? 思必馳首席科學家初敏博士告訴36氪：韻律方面，思必馳在原有歌曲韻律模型的基礎上增加了個性化學習技術，結合曲庫和名曲唱段的特徵生成相應的韻律曲線，使歌曲韻律特徵儘量接近名曲唱段的特點；在語調方面，思必馳應用了聲學模型的個性化學習技術，使得生成的頻譜引數儘量接近使用者的聲音，通過將接近使用者的頻譜引數和接近名曲唱段的韻律引數結合，就能生成使用者“原聲”唱出的“經典”曲調了。

36氪注意到，這並非思必馳首次將個性化歌聲合成技術運用於泛娛樂領域，此前在央視節目《機智過人》中，思必馳團隊的“小馳”機器人就曾用撒貝南的聲音演唱過《好久不見》。不同於以往，此次“讀詩成曲”則在曲目和參與度上更為開放，支援任何使用者從既定曲庫中自選歌曲，曲庫主要來自節目第一季、第二季嘉賓的演唱曲目。

近兩年，語音合成技術進入商業落地加速期，除BAT大廠紛紛著眼外，此前36氪也曾報道過標貝科技等創業公司。除了在泛娛樂領域佈局，思必馳又會如何將語音合成技術商業落地呢？據初敏博士透露，思必馳更多會將語音合成技術與語音識別、口語理解等演算法配套，為泛物聯網領域產品提供全鏈路對話互動方案。

具體來說，思必馳當前的業務圍繞四個AI進行整體佈局：AIOT、AI晶片、AIBOT、AI生態。AIOT業務在泛物聯網領域（包括智慧車載、智慧家居、智慧玩具/機器人、智慧手機等）提供軟體、軟硬一體化、Turnkey一站式等多樣化方案。在車聯網後裝、智慧音箱、兒童平板/故事機、知識機器人等領域市場佔有率均第一，在汽車前裝、電視/白電、智慧客服等重點領域市場增速領先。未來，思必馳將以“雲＋芯”戰略方向為主，整合智慧終端方案能力與全渠道智慧服務能力，形成All In One解決方案，進入酒店、地產、物流、養老、醫療、教育、安全、社群等更多行業。

據悉，在語音合成領域，目前思必馳已可以提供標準男女聲、童聲、名人合成音等，在最新推出的DUI平臺Voice Shop中，提供100+特色的高自然度合成音，併為不同廠商提供個性化定製服務打造voice-IP。

————

我是鄭銦， 36氪超人學院創始學員，關注NLP、AR/VR、物聯網、邊緣計算、半導體，專案交流請加微信zhengbaobao097825，註明公司、職位、姓名。

超人學院相信早期生態推動社會變革，使命是為早期生態培養領袖人才，詳情請戳 36氪想要為進入創投圈的年輕人做一所「超人學院」，你來不來

語音識別+歌聲合成，思必馳的新產品想讓普通人“讀詩成曲”

您可能也會喜歡…