“繼ChatGPT之后,音樂或將成為AI內容生成的前沿領域。
【資料圖】
作者:飛飛|
編輯:唐詩 |
當地時間1月27日,谷歌發布全新AI模型——MusicLM。通過AI模型MusicLM,文字可以直接生成高保真的音樂。
這是繼文字生成AI模型Wordcraft、視頻生成工具Imagen Video之后,谷歌又一次推出生成式AI模型工具,這一次谷歌將目標瞄準了音樂領域。
透過MusicLM,不難看到,這兩年生成式AI賽道正在迎來爆發。
01
MusicLM 挑戰更復雜場景
谷歌最新推出的AI模型MusicLM,可直接將文字、圖像自動生成音樂,并且曲風多樣,凡是想聽的音樂,基本都能自動生成。
MusicLM并非是第一個可自動生成音樂的AI模型,此前,可視化AI工具Riffusion也能自動創作音樂,還有Dance Diffusion,此外,當前最熱門的聊天機器人ChatGPT的研發者OpenAI也推出過Jukebox。
但值得注意的是,這些可自動生成音樂的AI系統,受限于技術和數據等因素,創作的音樂都比較簡單,相對而言并不復雜。
和前輩們不同的是,MusicLM可創作特別復雜和保真度特別高的音樂,也可通過圖像生成音樂。這算是實現了全新突破,通過AI技術不僅可以識別樂器,融合音樂流派,還可以通過更抽象的概念生成音樂。
比如,想要街機游戲配樂,只要輸入“街機游戲的主配樂,它節奏快且樂觀”等文字,MusicLM便可自動生成音樂。MusicLM也可通過圖像生成音樂,例如世界名作《吶喊》《格爾尼卡》《星空》等皆可作為素材來源。
不過,值得一提的是,目前谷歌只是發布了MusicLM的研究成果,因為版權等問題,谷歌還未向公眾開放MusicLM。
02
AI生成音樂難在哪?
去年10月,谷歌在生成式AI模型上已經推出過AudioLM,只需輸入短時音頻,就能生成相似風格的音頻。彼時AudioLM只是純音頻模型,這個技術類似于語言模型,根據提示的語音內容,自主判斷并生成相似內容。
從這個角度看,AudioLM可視為是MusicLM的前身。AudioLM在不進行轉錄或標記的情況下,可以模仿音頻的音色、響度和清晰度等。但是,AudioLM生成的音頻和原版并無太大區別,并未得到公開應用。
通過AI模型創作音樂,這件事并不容易,因為生成的音樂包括音頻信號、環境聲音、人的聲音等多個維度,是由很多信號相互作用形成的,而人體每次向外發出的聲音,無論聲音響度大小、音色好差,都由句法、音律等組成,這是非常復雜的綜合性系統。
也恰恰是這些原因,在早期的探索過程中,自動生成的音頻合成痕跡明顯,聲音聽起來并不自然,發音也都不標準。因此AI模型要想實現真正意義上的自動生成音頻,依靠海量的數據訓練和模擬,是必不可少的基礎性步驟。
針對這些挑戰,作為AudioLM的“升級版”,MusicLM的訓練數據更加龐大。據了解,谷歌在28萬小時的音樂數據集中,才訓練出MusicLM,為理解深度和復雜的音樂場景提供了基礎。
此外值得一提的是,針對任務缺乏評估數據等問題,谷歌專門引入了MusicCaps,用于文本到音樂的生成任務評估。
03
生成式AI迎來爆發
此次谷歌推出MusicLM,可視為拓展AI應用的注腳,背后則是生成式AI賽道的爆發。事實上,生成式AI一直是近兩年最炙手可熱的話題。
2021年,OpenAI相繼發布了劃時代的DALL-E、DALL-E 2模型,實現了文本生成圖像的跨越;去年,Meta發布了AI短視頻生成模型Make-A-Video,同樣可由文本內容生成視頻;谷歌也發布了短視頻AI生成模型Imagen Video與Phenaki。
不止是國外,國內也有很多生成式AI應用。比如,字節跳動旗下剪映APP,可根據文字內容自動生成匹配的視頻畫面。去年初,網易推出了“網易天音”,也是一站式AI音樂創作平臺,可將用戶編輯的內容通過AI自動生成為歌曲。
可以看到,生成式AI應用的場景越來越廣泛,寫作、繪畫、剪視頻等等,都可以通過AI技術實現。基于生成式AI廣泛的應用前景,谷歌、微軟、Meta等巨頭們紛紛推進研發,將生成式AI技術融合到產品中,這加速了生成式AI賽道的爆發。
事實上,生成式AI高速發展并非是這兩年的事,只是因技術門檻過高,其前沿動態一直在科技圈小范圍流傳。直到AI繪畫、AI寫作等頻繁出圈,生成式AI得到了更廣泛的關注。
生成式AI賽道爆發有必然原因,大數據和算法應用越來越成熟,模型工具越來越完善,這都加速了生成式AI應用的迭代。當前,生成式AI已經迎來爆發,未來還有巨大的發展潛力。根據Gartner統計數據,預計到2025 年,生成式AI將占所有生成數據的10%,而目前的比例還不到1%。
當然,任何技術都是一把“雙刃劍”,生成式AI也面臨著版權問題等挑戰,此外還面臨由AI生成“錯誤”引發的各種損失,就目前來看,還離不開人為干預。但長期而言,生成式AI巨大的發展潛力已經成為共識。
04
延伸閱讀
1.彩云小夢
是一款小說續寫軟件,由北京彩徹區明科技有限公司開發運營,具備AI續寫功能。
人物對話:可在軟件內與自己創建的人物開啟對話。
語音通話模擬:在人物詳情頁的語音通話按鈕,或是在聊天頁面點擊打電話按鈕,可開啟語音通話。
AI續寫:在輸入一段文字后,選擇軟件內的AI小夢來幫寫,便能自動續寫內容。
續寫內容分享:支持一鍵生成圖片,提供保存或分享他人。
2.Stability AI
業內備受矚目的AI獨角獸企業,曾推出著名的Stable Diffusion開源模型,其在學術和工業界的AI研究和應用受到各界的廣泛關注和肯定。
Stable Diffusion:類似DALL-E2系統,可通過文本描述生成對應的圖像,允許任何人在沒有監督情況下使用和構建其模型。
DreamStudio:由Stable Diffusion提供支持的新AI系統,可根據自然語言的描述創建逼真的圖像、藝術和動畫。
本文提供的信息僅用于一般指導和信息目的,本文的內容在任何情況下均不應被視為投資、業務、法律或稅務建議。
關鍵詞: MusicLM