震撼業界！NVIDIA推出AI新模型Fugatto　僅需文字提示就能創作音樂-港臺熱話

震撼業界！NVIDIA推出AI新模型Fugatto　僅需文字提示就能創作音樂

jcatcj 11月 26,2024

Fugatto 是一個基礎生成式轉換器模型，建立在該團隊多年來於語音建模、音訊處理及音訊理解的研究基礎之上。完整版本使用25億個參數，並在搭載32個NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系統上進行訓練。想要深入探索 Fugatto 的特色，連結在此。

Fugatto 是一個基礎生成式轉換器模型，建立在該團隊多年來於語音建模、音訊處理及音訊理解的研究基礎之上。完整版本使用25億個參數，並在搭載32個NVIDIA H100 Tensor核心GPU的 NVIDIA DGX 系統上進行訓練。想要深入探索 Fugatto 的特色，連結在此。：模型的最大挑戰在於資料集的構建。Fugatto 的研發團隊集合了來自印度、巴西、中國、約旦及韓國的專家，他們耗時一年，整合了數百萬個音訊樣本，並利用多種策略創建與擴展資料範圍，以提升模型對多語言及多口音的支持能力。團隊的核心成員之一、NVIDIA 應用音訊研究部門經理 Rafael Valle 表示：「我們希望創造一個能像人類一樣理解並生成聲音的模型。」

Valle 不僅是 Fugatto 的主要推手之一，還是一位管弦樂指揮家與作曲家。他指出，Fugatto 是首個展現「突現性質（emergent property）」的基礎生成式音訊模型，能透過自由形式指令執行多種複雜的聲音任務，並在資料與模型規模上持續發展。

Fugatto 的誕生為音樂製作人與創意人員開闢了新的天地。曾多次獲得白金唱片殊榮的製作人 Ido Zmishlany表示：「這項技術太瘋狂了！它讓我能在錄音室內即時創造新聲音，實現過去難以想像的可能性。」

作為 One Take Audio 的共同創辦人，Zmishlany 也提到音樂科技的演進如何推動音樂史：「電吉他帶來搖滾樂，採樣器催生嘻哈音樂，而 AI 正在為我們譜寫下一個篇章。這是一個全新樂器，改變了我們創作音樂的方式。」

創作者則可利用 Fugatto 為多國市場快速定制配音，調整口音與情感，以增強本地化效果，節省大量時間與資源。

Fugatto 的應用範疇超越傳統音訊創作，還可個人化語言學習工具，讓使用者選擇自己或家人熟悉的聲音講授課程內容。電玩開發人員則能藉此即時創造動態聲景，例如根據玩家動作變化，讓背景音樂或環境音效隨之調整，提升沉浸感。

AI 研究員 Rohan Badlani 提到，Fugatto 的創新功能如時間插值（temporal interpolation），能模擬聲音隨時間變化的過程，例如暴風雨逐漸消散的聲音，或雷雨伴隨鳥鳴聲迎接清晨的聲景。「這讓我感覺自己彷彿成了藝術家，儘管我的專業是電腦科學。」

Fugatto 還支持結合不同指令的技術，稱為ComposableART。使用者可以調整多種屬性，例如讓模型用法國口音演繹帶有悲傷情感的文字，並精細控制其程度。

Valle 舉例說明：「模型甚至能生成喇叭與薩克斯風融合的獨特聲音。」經過微調後，Fugatto 還能基於少量歌唱資料，產生高品質的歌聲，應用範圍涵蓋音樂、語音與藝術創作。

對於 Fugatto 的潛力，Valle 滿懷信心地表示：「這只是我們邁向未來的第一步。」隨著無監督多任務學習的技術進步，Fugatto 有望成為音訊創作與轉換的核心技術之一，激發更多創意靈感，並重塑人們與聲音互動的方式。

文字 Fugatto 音樂 AI NVIDIA