機器人的歌聲也如此動聽

科技 · 發表 2018-12-31 13:11:37

摘要：原標題：機器人的歌聲也如此動聽　　國產微軟小冰已推出第六代（資料圖片）漫畫版的初音未來（資料圖片）那拉日本語音合成技術最近再次有了突破：只要有時長2小時的某歌手唱歌的聲音資料，通過深度學習技術，一款AI（人工智慧）軟體就可以合成出一段跟這個歌手幾乎一模一樣的歌聲。較之以前出現的各...

　　國產微軟小冰已推出第六代（資料圖片）

漫畫版的初音未來（資料圖片）

那拉

日本語音合成技術最近再次有了突破：只要有時長2小時的某歌手唱歌的聲音資料，通過深度學習技術，一款AI（人工智慧）軟體就可以合成出一段跟這個歌手幾乎一模一樣的歌聲。

較之以前出現的各位AI虛擬歌手，這次的技術在聲音模擬程度上更進一步，“機器聲”的感覺大幅下降，其訓練速度也大為提升。利用這項新技術，我們不用請歌手去真實演唱，就可以隨心所欲地欣賞到這位歌手的聲音唱出的更多不同歌曲。比如讓AI模仿林俊杰的聲音，唱出周杰倫、五月天、孫燕姿等歌手的任何一首歌，你也完全聽不出其中有電子合成的痕跡——前提只需要讓AI“聽”完林俊杰的三張專輯。

又一位日本AI歌姬的誕生

這款日本AI歌姬開發商Techno Speech是一家由日本名古屋工業大學投資的創業公司，該公司成立的目的就是開發並宣傳名古屋工業大學開發的世界上最先進的音訊相關技術，幾位主要負責人都來自名古屋工業大學語音技術研究室。我們目前聽到的這位AI歌姬所“唱”的歌曲版本有女聲演唱的日文歌、英文歌，還有中文版的陳奕迅的《愛情轉移》等。這些歌曲演唱的聲音幾乎與真人無異，仔細聽才能聽出幾個音有少許拉長間隔等毛病，但也只是像一個有口音的人說普通話，基本上單憑你我的耳朵，根本辨別不出這究竟是機器發出的聲音，還是真人演唱。

令這位AI歌姬成名的就是一款CeVIO語音合成軟體，使用的技術則是一種我們並不陌生的深度神經網路技術（簡稱DNN，是令計算機模仿人腦的思考方式，對所提供資料庫內的語音資料進行快速識別與記憶的技術，概念源於人工神經網路的研究）。德田惠一教授主導開發了這一專案。

眼下該技術開發公司還在與日本卡拉OK公司Joysound合作，打算讓他們設計的AI歌姬將來不僅能學人類唱歌，還要教人類怎麼唱歌。比如有一款Pepper機器人裝上了這種應用程式後，就可以與人合唱，唱完歌后還會給出相應的評論，指點一二。這個功能在卡拉OK房裡似乎也不是什麼新鮮事。Techno Speech下一步則是要讓這項技術走進養老院，為老人家們娛樂解悶。不過公司負責人表示，具體細節要明年3月才公佈。

歌聲合成器技術催紅數位虛擬歌姬

之所以說這項技術本身並不新鮮，是因為數年前日本YAMAHA集團便已發行了一套歌聲合成器技術以及基於此項技術的應用程式。

該技術當時由西班牙的龐培法布拉大學的一個小組負責開發，在YAMAHA集團幫助下最終實現商業化，成為一款名為“VOCALOID”的產品推出市場。該產品可以讓使用者只需通過輸入歌詞和音符的方式，就能讓軟體“唱歌”，配合載入伴奏資料，即可完成整首音樂的製作，在製作過程中無需任何新的歌手提供聲音資料。接著，YAMAHA公司以及Crypton Future Media等以VOCALOID引擎為基礎開發音源的公司便開始使用虛擬形象的方式進行營銷，推出了諸如“初音未來”“洛天依”等虛擬歌手形象。

初音未來的音源資料資料取樣於日本聲優藤田咲。形象被設計成一個有著綠色雙瞳和雙馬尾、身材嬌小、聲音嬌嗲可愛的卡通小女孩模樣。它最初於2007年推出的幾個試聽小樣大獲好評，令該款軟體銷售僅僅十天便佔了日本音樂軟體市場的三成江山，連附贈試用版的雜誌都立刻賣光光，還被各種倒賣，炒到了三倍價格。於是初音未來在接連推出單曲、專輯後，還一直擔任日本音樂團體Sound Horizon的演唱與合唱角色，併成為“世界上第一個使用全息投影技術舉辦演唱會的虛擬偶像”。早在2017年時，其代表曲的點選播放已過百萬次。“初音未來”的成功，大大改變了電子音樂人對於音樂業的認知和整個行業的格局。它的一系列衍生產品，包括漫畫形象等都成為各大廠商的“寵兒”，代言、授權產品種類無所不包，迅速走紅全世界。

VOCALOID如今已推出第三代虛擬歌姬，取名IA，使用語言為日語和英語，原聲聲源提供者為Lia。它的特色則是高音域歌唱充滿通透性，且口音清晰，在搖滾和節奏性舞曲方面尤其表現出速度上的優越性，它已使製造各式各樣的聲音都成為可能。

而Yamaha公司以VOCALOID3語音合成軟體為基礎製作的全世界第一款有中文聲庫的虛擬歌手洛天依，自2016年2月登上湖南衛視小年夜春晚後，如今也在中國擁有大量歌迷。

我國也有不少AI歌手，比如“微軟小冰”。它自2016年時以歌手身份出道，現已釋出了十幾首接近人類出品質量的單曲。2017年9月底，第五代小冰還解鎖了人工智慧歌手深度學習模型，開始大規模演唱各種流行音樂。它只需聽人類清唱一遍，就能學會其中的情感和演唱風格，五分鐘內就可以來一首極相似的“翻唱”。眼下，微軟小冰的微博粉絲也是數以萬計。

DNN技術的應用前景

DNN技術針對歌聲的合成，其實只是語音合成領域的一個分支。讓AI唱歌當然比簡單的朗讀模式更為複雜，因為除了音調，還要產生旋律感。但只需要輸入更大量的資料，AI自會進行“消化”訓練，並如你所願地達到目的。現在你或許能明白，某些衛星地圖軟體為何可以讓林志玲如此不厭其煩地替我們指路了吧？

研究人員稱，這項技術未來還可以運用到更多領域。比如復現歌星的歌聲（包括死者的聲音）；音樂製作和遊戲開發；由虛擬YouTubers主持的視訊流/直播；虛擬演員後期錄製系統；AI或語音對話系統的發聲模組；生成靈活的參考語音，用於外語學習或歌唱教育；為ALS（漸凍人症）或喉癌患者製作語音裝置；製作護理設施的數字標牌，等等。

機器人的歌聲 也如此動聽

您可能也會喜歡…

機器人的歌聲也如此動聽