語音識別+歌聲合成,思必馳的新產品想讓普通人“讀詩成曲”
在小年夜,中央電視臺《經典詠流傳》第二季節目中出現了一款“讀詩成曲”的線上互動小工具,使用者僅需要朗讀一段詩詞,就可以聽到用自己聲音演唱的經典詩詞唱段。那這是怎麼實現的呢?
原來,“讀詩成曲”的背後是思必馳提供的個性化歌聲合成演算法。 歌聲合成技術是語音合成(TTS,即 Text to Speech)的衍生品,其關鍵區別在於韻律預測模型不同。 在普通TTS系統中,通常有個韻律模型來根據句子的內容和語調環境預測每個音素(音節)的時長和音高曲線。 在歌聲合成中,這個韻律模型則更換成由樂譜來預測每個音素(音節)的時長和音高的歌曲韻律模型 。最終的生成過程仍然跟語音合成類似,將韻律引數和頻譜引數結合,生成歌聲。
在“讀詩成曲”中,韻律預測模型可以使得機器根據人說話的語調合成歌曲,且根據唱段的韻律和節奏調整音調,這又是如何實現的呢? 思必馳首席科學家初敏博士告訴36氪: 韻律方面,思必馳在原有歌曲韻律模型的基礎上增加了個性化學習技術 ,結合曲庫和名曲唱段的特徵生成相應的韻律曲線,使歌曲韻律特徵儘量接近名曲唱段的特點;在語調方面,思必馳應用了聲學模型的個性化學習技術,使得生成的頻譜引數儘量接近使用者的聲音,通過將 接近使用者的頻譜引數和接近名曲唱段的韻律引數結合,就能生成使用者“原聲”唱出的“經典”曲調了。
36氪注意到,這並非思必馳首次將個性化歌聲合成技術運用於泛娛樂領域,此前在央視節目《機智過人》中,思必馳團隊的“小馳”機器人就曾用撒貝南的聲音演唱過《好久不見》。不同於以往 ,此次“讀詩成曲”則在曲目和參與度上更為開放,支援任何使用者從既定曲庫中自選歌曲,曲庫主要來自節目第一季、第二季嘉賓的演唱曲目。
近兩年,語音合成技術進入商業落地加速期,除BAT大廠紛紛著眼外,此前36氪也曾報道過標貝科技等創業公司。除了在泛娛樂領域佈局,思必馳又會如何將語音合成技術商業落地呢?據初敏博士透露,思必馳更多會將語音合成技術與語音識別、口語理解等演算法配套,為泛物聯網領域產品提供全鏈路對話互動方案。
具體來說, 思必馳當前的業務圍繞四個AI進行整體佈局:AIOT、AI晶片、AIBOT、AI生態。AIOT業務在泛物聯網領域(包括智慧車載、智慧家居、智慧玩具/機器人、智慧手機等)提供軟體、軟硬一體化、Turnkey一站式等多樣化方案。 在車聯網後裝、智慧音箱、兒童平板/故事機、知識機器人等領域市場佔有率均第一,在汽車前裝、電視/白電、智慧客服等重點領域市場增速領先。未來,思必馳將以“雲+芯”戰略方向為主,整合智慧終端方案能力與全渠道智慧服務能力,形成All In One解決方案,進入酒店、地產、物流、養老、醫療、教育、安全、社群等更多行業。
據悉,在語音合成領域,目前思必馳已可以提供標準男女聲、童聲、名人合成音等,在最新推出的DUI平臺Voice Shop中,提供100+特色的高自然度合成音,併為不同廠商提供個性化定製服務打造voice-IP。
————
我是鄭銦, 36氪超人學院創始學員 ,關注NLP、AR/VR、物聯網、邊緣計算、半導體,專案交流請加微信zhengbaobao097825,註明公司、職位、姓名。
超人學院相信早期生態推動社會變革,使命是為早期生態培養領袖人才,詳情請戳 36氪想要為進入創投圈的年輕人做一所「超人學院」,你來不來