ICLR19論文：口哨聲變交響樂，神經網路一鍵改變音樂風格，LeCun推薦 | 已開源

開源 ICLR 神經網路 · 發表 2019-05-09 12:32:49

摘要：銅靈發自凹非寺量子位出品 | 公眾號 QbitAI Facebook新開源的炫酷AI專案，能給音符“變裝”。它將海頓的絃樂四重奏轉換成巴赫的大合唱、貝多芬的鋼琴曲。讓經典的吉他演奏，搖身一變成了優雅的莫扎特交響樂。甚至連你隨口哼唱的口哨，經過AI的加...

銅靈發自凹非寺

量子位出品 | 公眾號 QbitAI

Facebook新開源的炫酷AI專案，能給音符“變裝”。

它將海頓的絃樂四重奏轉換成巴赫的大合唱、貝多芬的鋼琴曲。讓經典的吉他演奏，搖身一變成了優雅的莫扎特交響樂。

甚至連你隨口哼唱的口哨，經過AI的加工和改造，都能變成莫扎特的交響樂：

△ 想聽口哨變身交響樂的，可拖拽至1分45秒附近

這就是音樂界的P音大師麼。

目前，這個專案的論文已被ICLR19接收，還獲得了圖靈獎得主、深度學習大牛Yann LeCun的轉推，推特上已經近600贊。

這下，誰還能說你沒有音樂天賦？

口哨變音樂的祕密

在論文A Universal Music Translation Network中，FaceBook AI研究院的四位研究人員詳細介紹了背後的原理。

讓音樂轉變風格，甚至將口哨變成交響樂的祕密，都藏在一個通用的音樂轉換網路裡了。

這是一種橫跨樂器、流派和風格的音樂轉換方法，在多域Wavenet自編碼器的基礎上改造而來。這是此前谷歌研究出的一種原始音訊波形生成模型，波形生成速度快，並且效果逼真。

除了藉助了Wavenet的架構，這個通用轉換網路還具有一個共享編碼器和進行端到端波形訓練的解纏潛空間（disentangled latent space）。

△ FaceBook通用音樂轉換模型架構

這個編碼器是一個全卷積網路，它由三個塊組成，每個塊包含10個殘差層，可應用到任意序列長度。

其次，每個殘差層均包含一個隨著核心尺寸增加而增加的擴張卷積、一個非線性單元RELU，還有一個1×1 卷積，固定寬度為128個通道。

通過部署多樣的訓練資料集和大型網路的容量，獨立域的編碼器支援將音樂轉換成訓練過程中未曾見過的音樂域。這種無監督學習方法，不依賴於域或者是音樂的轉錄間匹配過樣本的監督。

研究人員用此前DeepMind釋出的聲音合成器NSynth和從人類專業音樂家演奏的資料集上的資料評估這種方法。

研究人員記錄了改編過音訊的MOS分數（平均評價計分），結果顯示，模型顯示的音訊質量略低於人類演奏的音訊質量。

隨後，研究人員評估了不同條件下人類演奏音樂與模型生成音樂間的歸一化相關性。

結果顯示，AI生成的音樂高於了人類的得分。

論文：

https://arxiv.org/abs/1805.07848

開源地址：

https://github.com/facebookresearch/music-translation

Facebook官方部落格：

https://research.fb.com/publications/a-universal-music-translation-network/

量子位AI社群開始招募啦，量子位社群分：AI討論群、AI+行業群、AI技術群；

歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“微信群”，獲取入群方式。（技術群與AI+行業群需經過稽核，稽核較嚴，敬請諒解）

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

喜歡就點「在看」吧 !