震撼業界!NVIDIA推出AI新模型Fugatto 僅需文字提示就能創作音樂

jcatcj 11月 26,2024

Fugatto 是一個基礎生成式轉換器模型,建立在該團隊多年來於語音建模、音訊處理及音訊理解的研究基礎之上。完整版本使用25億個參數,並在搭載32個NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系統上進行訓練。 想要深入探索 Fugatto 的特色,連結在此。

Fugatto 是一個基礎生成式轉換器模型,建立在該團隊多年來於語音建模、音訊處理及音訊理解的研究基礎之上。完整版本使用25億個參數,並在搭載32個NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系統上進行訓練。 想要深入探索 Fugatto 的特色,連結在此。:模型的最大挑戰在於資料集的構建。Fugatto 的研發團隊集合了來自印度、巴西、中國、約旦及韓國的專家,他們耗時一年,整合了數百萬個音訊樣本,並利用多種策略創建與擴展資料範圍,以提升模型對多語言及多口音的支持能力。團隊的核心成員之一、NVIDIA 應用音訊研究部門經理 Rafael Valle 表示:「我們希望創造一個能像人類一樣理解並生成聲音的模型。」  

Valle 不僅是 Fugatto 的主要推手之一,還是一位管弦樂指揮家與作曲家。他指出,Fugatto 是首個展現「突現性質(emergent property)」的基礎生成式音訊模型,能透過自由形式指令執行多種複雜的聲音任務,並在資料與模型規模上持續發展。  

Fugatto 的誕生為音樂製作人與創意人員開闢了新的天地。曾多次獲得白金唱片殊榮的製作人 Ido Zmishlany表示:「這項技術太瘋狂了!它讓我能在錄音室內即時創造新聲音,實現過去難以想像的可能性。」  

作為 One Take Audio 的共同創辦人,Zmishlany 也提到音樂科技的演進如何推動音樂史:「電吉他帶來搖滾樂,採樣器催生嘻哈音樂,而 AI 正在為我們譜寫下一個篇章。這是一個全新樂器,改變了我們創作音樂的方式。」  

創作者則可利用 Fugatto 為多國市場快速定制配音,調整口音與情感,以增強本地化效果,節省大量時間與資源。  

Fugatto 的應用範疇超越傳統音訊創作,還可個人化語言學習工具,讓使用者選擇自己或家人熟悉的聲音講授課程內容。電玩開發人員則能藉此即時創造動態聲景,例如根據玩家動作變化,讓背景音樂或環境音效隨之調整,提升沉浸感。  

AI 研究員 Rohan Badlani 提到,Fugatto 的創新功能如時間插值(temporal interpolation),能模擬聲音隨時間變化的過程,例如暴風雨逐漸消散的聲音,或雷雨伴隨鳥鳴聲迎接清晨的聲景。「這讓我感覺自己彷彿成了藝術家,儘管我的專業是電腦科學。」  

Fugatto 還支持結合不同指令的技術,稱為ComposableART。使用者可以調整多種屬性,例如讓模型用法國口音演繹帶有悲傷情感的文字,並精細控制其程度。  

Valle 舉例說明:「模型甚至能生成喇叭與薩克斯風融合的獨特聲音。」經過微調後,Fugatto 還能基於少量歌唱資料,產生高品質的歌聲,應用範圍涵蓋音樂、語音與藝術創作。  

對於 Fugatto 的潛力,Valle 滿懷信心地表示:「這只是我們邁向未來的第一步。」隨著無監督多任務學習的技術進步,Fugatto 有望成為音訊創作與轉換的核心技術之一,激發更多創意靈感,並重塑人們與聲音互動的方式。  

文字 Fugatto 音樂 AI NVIDIA

點擊閱讀下一則新聞
川普喊對墨西哥加徵25%關稅 資誠:台商應強化供應鏈韌性


鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。


標題:震撼業界!NVIDIA推出AI新模型Fugatto 僅需文字提示就能創作音樂

地址:https://www.twnewsletter.com/article/57076.html

相關文章
精選資訊
  • 財經輪股堂|定製不同風險偏好投資策略
  • 財富焦點論壇︱互聯網經濟對經濟增長影響
  • 大砍蘋果13%持股!股神巴菲特解釋原因 擁6兆現金創新高
  • Threads看不到留言?一鍵找回精彩留言
  • 85度C董娘出清全部3463張持股 美食-KY證實「已賣完」曝原因
  • 狂飆論股社| 韓國公司債券收益率飆升
  • 鴻海旗下鴻騰精密注資新加坡子公司122億 因應海外擴張計畫