在家憋瘋的外國人,用奇怪的方法練起了口技
2020年05月30日08:31

原標題:在家憋瘋的外國人,用奇怪的方法練起了口技

原創 栗子 果殼

抑製不住體內的能量,我就要爆發了(誤)丨七龍珠

疫情所致,歪果仁也許久不曾出門了。

日子一長,難免開始修習奇妙的法術。

口技便是其中之一。這門古老的藝術,沒有經年累月的苦練,恐怕難以運用自如。

不料Google眾人搬出一隻AI。有了它,即便是凡人發出的聲響,也能變成樂器的音色。比如薩克斯風的旋律:

賣家秀來自Google研究員;買家秀素材來自撒貝寧《經典詠流傳》,薩克斯風音色由AI合成丨DDSP

這AI叫做DDSP,已有線上試玩Demo。既然建國之後無法成精,不如就化作戲精吧:

https://colab.research.google.com/github/magenta/ddsp/blob/master/ddsp/colab/demos/timbre_transfer.ipynb

在下服用之後,表示療效上佳。

模仿,要從源頭學起

假如只懂得薩克斯風一種樂器,恐怕還稱不上口技。

DDSP還支援長笛、小提琴和小號的修煉。你聽,這裏有長笛獨奏的五環之歌:

五環之歌素材來自《魯豫有約》,鋼琴版《名偵探柯南》主題曲素材來自Lisa's Music Diary,長笛音色由AI合成丨DDSP

當然,原聲不見得要人聲才好,鋼琴聲轉為長笛依然清脆悠揚。

那麼,這般音色生成技能從何而來?Google科學家說,DDSP最獨到的地方在於:關心聲音是如何產生,又是如何被人體感知的。

物體振動的時候,動能和彈性勢能週期性地此起彼伏,就像彈簧振子那樣丨Oleg Alexandrov

世間萬物,都在週期性地振動,這便是聲音的來源。而人類的聽覺,也在漫長的進化中,變得對週期性振動非常敏感。

那麼,AI合成器也該重點學習週期性振動的特點吧?可當代擁有學習能力的AI多用神經網絡打造而成,神經網絡很少用到振動的週期性。而用上了這層知識的聲碼器(vocoder)方法,卻因為表達能力不足,又難和神經網絡結合起來,漸漸被冷落了。

如今,Google的科學家們找到新的方法DDSP,利用了聲音產生和感知的規律,沒有損傷表達能力,也與當代AI融為一體。於是,它登上了機器學習頂會ICLR 2020。

魚和熊掌,如何兼得?

首先,既然要利用聲音產生和感知的規律,團隊想起了角落里被冷落的聲碼器。從前,它主要用來合成人類語音:在人講話的聲波里,有許多週期性的波形,這些週期波便被當做基本的聲源信號,被聲碼器分析和利用起來。

圖丨大話西遊

聲碼器的合成方法,主要分為加法合成與減法合成。加法,是把許多正弦波合在一起;減法,是從原有聲波里過濾掉一部分,留下的就是結果。加法比減法的表達能力更強,需要的參數也更多,因為每個正弦波都有自己隨著時間變化的振幅(音量)和頻率(音高)。

加法合成,就是把不同的正弦波疊加起來丨ADSR Sounds

科學家借用了一種來自1990年的音頻合成模型,把加和減結合起來。這種方法的加法部分,比其他同類模型擁有更多參數,令表達能力得到了保證;減法部分則濾掉了背景音,讓主角的聲波能得到更好的處理。並且,最後還可以把背景音加回去,讓生成的效果更自然。

更重要的是,每一個模塊都是可微分(differentiable)的,這也是DDSP里第一個D的由來。而一個數字信號處理(DSP)模型可微分,表示只要投喂某種樂器演奏的音頻,它的訓練便能從輸入到輸出一氣嗬成;相比之下,每個模塊獨自訓練的模型,總體成績未必達到最佳。

心有多大,舞台就有多大

現在,來感受一下小提琴的訓練成果吧。

《名偵探柯南》主題曲哼唱素材來自作者,小提琴音色由AI合成;真人小提琴演奏片段來自Louis Liao,演奏者Carol Lin丨DDSP

彷彿一隻熊孩子,修習小提琴不久,手法不甚嫻熟,還沒完全渡過拉鋸時期。不過,裝飾音倒有幾分調皮的神采。

練著練著,熊孩子出了一道題。媽媽,你能聽出這是哪句話嗎:

原句語音素材由Google娘TTS合成,小提琴音色由AI合成丨DDSP

媽媽深感孺子可教,並獎勵他再練一會兒小號:

《少女終末旅行》插曲與《千與千尋的神隱》主題曲哼唱素材來自作者,小號音色由AI合成丨DDSP

或許氣息還有些不足,但至少不會被媽媽聽出是AI在吹號了(誤)。

以上音頻,都是用DDSP線上試玩版生成的。官方提供了四種樂器,且支援音量和音高調節。

除此之外,你也可以自行錄下其他樂音(比如貓叫),投喂給DDSP去學習。

說不定哪天,你一開口便能發出你家主子的聲音,豈不美哉?只待團隊把這口技AI實時化,你就能和主子展開更親切的會談了。

一張有聲音的動圖(誤)丨TheCatsPyjaaaamas

參考文獻

[1] Engel, J., Hantrakul, L., Gu, C., & Roberts, A. (2020). DDSP: Differentiable Digital Signal Processing. arXiv preprint arXiv:2001.04643.

[2] Theunissen, F. E., & Elie, J. E. (2014). Neural processing of natural sounds. Nature Reviews Neuroscience, 15(6), 355-366.

[3] Serra, X., & Smith, J. (1990). Spectral modeling synthesis: A sound analysis/synthesis system based on a deterministic plus stochastic decomposition. Computer Music Journal, 14(4), 12-24.

作者:栗子

編輯:odette

視頻精選
更多新聞