想讓周杰倫唱《一剪梅》?這個能編曲的AI或許可以做到
2020年07月03日14:44

原標題:想讓周杰倫唱《一剪梅》?這個能編曲的AI或許可以做到

原創 世超 差評

美國的歌手,作曲家,作詞家或許都要失業了,本就不富裕的家庭又蒙上了一層寒霜。而這一切都因為一台 Jukebox( 自動點唱機 )。

不好意思放錯圖了,是這個 Jukebox!

4 月份的最後一天,OpenAI( 旗下的 OpenAI Five 成功在 DOTA 比賽中擊敗職業選手 )發佈了自己的新產品 Jukebox( 自動點唱機 )。

對於國人來說 Jukebox 這個名字可能比較陌生,但在美國的 40 到 60 年代可謂是風靡一時。在那段時間,每個大型的酒館或者娛樂場所都會放置一台自動點唱機,只有投入硬幣,就可以選擇自己想要聽的歌曲。

你甚至可以在星際爭霸Ⅱ裡面也可以找到相關的彩蛋。▼

同樣的,在 OpenAI 的新產品之中,只要你輸入流派、歌手和歌詞,它就可以自動演唱歌曲,甚至還能創造出全新的從未存在過的音樂。

打個比方來說,你可以讓 Jukebox 用費玉清的聲音用五月天的風格演唱著周杰倫的《 晴天 》,又或者是讓馬老五( maroon 5 )的主唱亞當用說唱的風格演唱泰勒 · 斯威夫特的《 Love story 》。

這一切簡直太 Aweome 了!!簡直震驚世超。

事實上,Jukebox 並不是人類第一款可以自動生成音樂的 AI,自動音樂的歷史可以追溯到半個世紀以前,只是之前的產品都沒有像 Jukebox 那樣全能。

在 Jukebox 之前,人們曾經創造過能出生成鋼琴樂譜的算法,能生成歌手聲音的數字解碼器,以及能夠模擬各種音色的合成器,後來又演變出各種各樣的虛擬歌姬。

初音未來( 日本 VOCALOID 虛擬歌手 ),她可以唱歌,但是不能創造音樂。▼

但是無論是鋼琴譜,又或者是虛擬歌姬,他們能做到到也只有單一的變化,如果要求他們製作一手複雜的交響樂,那實在是太困難了。

突破是來自法國科學家 Pierre Barreau 和他的團隊,在經過一番努力之後,他們聯手推出了能夠獨立演奏古典音樂的 AIVA。

Pierre Barreau 個人簡介,長得又帥,成就又高,著實令人羨慕了。▼

基於深度學習技術,AIVA 可以學習莫紮特、巴赫、貝多芬等名家作品,製作出自己對音樂理解的數學模型,從而能夠站在大師的肩膀上演奏或者創造新的音樂。

AIVA 能做到哪一步呢,將 AIVA 創造的音樂和其他作者的音樂混合在一起,即便是專業的音樂家也無法聽出區別。

而在 2017 年 3 月,AIVA 還成為 “ 法國及盧森堡作曲家協會 ”( SACEM )的首個非人類會員。

而在 6 月的盧森堡國慶日慶典開幕上,AIVA 還登場彈奏了自己創造的 Let’z make it happen 。

這著實令人羨慕了,畢竟這是很多音樂人終其一生都難以達成的成就。

AIVA 已經很強大了,但是還不夠強大,科學家的野心不滿足於只能創造交響樂,他們還想要更多,想要流行音樂,要讓 AI 能夠像人一樣演唱。

但是想要完成這個任務可不容易,接力棒早早就放在那裡,數年間一直無人來取。

直到一位猛男的出現,而這個猛男,恰巧就是 Jukebox!

想要達成這個成就。第一步,就需要我們把現實中的音樂轉換為電腦中的數字信息,好在音頻數字化技術早已成熟,如今天天用手機聽歌的我們不用太費心思。

真正的難題在於一首流行歌曲中同時存在著多種因素,比如打擊樂器發出的低頻音、中高頻的樂器聲、以及歌手本身的聲音,所有的聲音混雜在一起。

在這種情況下,如果想要 AI 像人一樣演唱,就需要先把這些聲音分離然後再重新組合在一起。

這並不是一個簡單的問題。為瞭解決這個問題,研究人員的頭頂日漸稀薄。

開始時,他們嚐試了許多方法都失敗了,直到有人從隔壁的圖形分層 VO — VAE 技術中獲得了靈感,使用新的 VQ — VAE 模型才取得新的突破。

而這個VQ—VAE模型呢,也不是一件簡單的事情。

研究人員需要從 3 個不同的層次對音樂進行數字建模,但是在每一層會使用不同的編碼精度,比如頂層會採用 128 倍壓縮倍率保留最基本的音樂信息。而底層則採用 8 倍爭取保留最多的音樂細節。

在生成音樂時,一系列的轉換器會從上到下生成代碼,然後,憑藉下層的解碼器就可以將它們生成新的音頻。

這樣還是有點抽像,讓我們換一種方式表達。

你可以想像我們現在要臨摹一副畫卷。但是不直接臨摹。首先我們去製作不同層次分層圖,也就是要在三張紙上分別臨摹原畫卷的某一部分。

第一張記錄輪廓信息( 音樂的風格,特色,旋律等 ),第二,第三張紙則記錄儘可能多的色彩、陰影信息等( 歌手的音色,樂曲的音質 )。

這樣我們就得到了三張分別記錄不同層次信息的臨摹作品,只需要把三張作品疊在一起就可以得到一副精度不是那麼高的仿圖。

這個過程類似紙雕作品,通過雕刻不同的層次細節,再利用光影就可以實現令人驚豔的效果。

圖源網絡

進一步來說,如果我們臨摹的作品足夠多,那我們能夠得到的層次圖就越多。

這下只要將不同層次的分層圖合併在一起,就能夠創造出之前不存在的作品。

這也是 Jukebox 能夠用費玉清的聲音,五月天的風格唱周杰倫的《 晴天 》的原因。

就如同前文所說,借助這樣的算法,再輔以大量的高精度歌曲進行訓練之後,Jukebox 就可以創造新的音樂了。

等一切都成熟之後,用戶就可以通過輸入想要的流派、藝術家和歌詞,獲取全新的音樂。

而 Jukebox 團隊也在官網上放出了不少已經創造好的作品。

第一耳聽感,彷彿就是歌手原聲一樣,但是由於經曆過多次壓縮,導致聲音細節損失嚴重,導致聽起來像是隔著一層厚厚的罩子,含混不清。網友們戲稱這是歌手酒醉之後的 KTV 版本。

儘管歌曲清晰度不高,依然可以明顯感受到歌手的風格,甚至非常小的細節,Jukebox 也能夠完美的還原。

AI 似乎太強大了,強大到讓人害怕。

回到文章最初,這麼強大的 AI 真的會導致歌手,作曲家,作詞家失業嗎?

在回答這個問題之前,我想向你們推薦一首歌曲的現場 —— 中島美嘉《 曾經我也想一了百了 》。

這是中島美嘉演唱會的結尾曲,當時的她,正飽受病痛折磨,雙耳幾近失聰。演唱過程中,甚至於一度聽不清曲子的鼓點。為了找到節奏她只得跪下身子,將手覆在音響之上用手掌感受節奏。

這是一首不完美的歌曲,因為節奏的混亂,中島美嘉有多處地方都出現了破音,跑調,但是依然被觀眾評選為演繹的最完美的版本之一。

同樣的,在 2010 年 DUO 演唱會時,陳奕迅在演唱《 浮誇 》時也是幾度破音,現場版和專輯裡面差別很大,但是也同樣被評為陳奕迅的最佳現場之一。

又或者像是 Queen 樂隊在舞台上和 6 萬多人一起合唱,台上台下心意相通的時刻,這些都是 AI 永遠無法替代的瞬間。

就如同許多人說過的那樣,聽音樂一定要聽現場版。當我們在參加演唱會的時候,不僅僅是在聽歌手演唱,也是在看歌手在舞台上的表演。

音符、旋律、時間。。。數學家們能從理論上能證明音樂是可以被窮舉的。而對於排列組合這種有規律的事兒,AI 可太擅長了。

但是,作為表演藝術的一部分,歌手的演出並不是簡簡單單用旋律就可以定義的。

中島美嘉在演唱時對生命的呼喚,陳奕迅在演唱《 浮誇 》時都痛苦的演繹,和分手後的歇斯底裡,乃至於 queen 的萬人大合唱,它們都是獨一無二的,是人類在音樂史上的閃光點。

它們所展現的靈光和帶來的感動是人類獨享的。

規則讓 AI 擁有了執行創作的能力,但是握著能打開創造世界大門的鑰匙的一直都是人類。

原標題:《想讓周杰倫唱《一剪梅》?這個能編曲的AI或許可以做到。》

更多新聞