全球首款「繁體中文」AI 大型語言模型登場!聯發科攜手中研院打造
(圖翻攝聯發科官網)
美國新創科技公司 OpenAI 以基於 AI 生成式打造的強大語言模型 GPT-4,透過大量的語言材料與資料訓練等技術,讓會說人話的「對話式」AI聊天機器人ChatGPT,從去年底開始火速於全球掀起風靡熱潮後,不但可輸入文字進行問答,現在還能給出圖片讓AI去解讀,甚至還能要求AI生成所需要的圖片範例。與此同時,各大科技巨頭廠商,也爭相投入這波創新AI 技術競賽的浪潮。
不讓 GPT-4 專美於前,身為IC設計龍頭的聯發科於官網宣布,旗下來自前瞻技術研究單位的「MediaTek Research」聯發創新基地,近幾年來以致力深耕人工智慧技術領域為主要核心,日前已成功開發出全球首款以繁體中文打造、具備增強AI生成訓練的大型語言模型「BLOOM-zh」,並公開釋出該原始碼的測試模型提供外界下載,除能直接輸入繁體中文進行問答或生成文案之外,同時兼具支援英文等多語言能力。
請繼續往下閱讀...
由於現有多數開放原始碼所釋出的大型語言訓練模型,主流普遍大都傾向以英文作為首要語言與主要優化版本,相較下,以繁體中文所打造的預生成式AI語言訓練模型,則是較為少見,且資料量也相對不足。
有鑑於此,聯發創新基地於去年五月就已攜手與中研院、國家研究院展開合作計畫,透過三方共同組成的AI研究團隊,以打造出全球首款使用繁體中文作為主要對象的大型語言模型「BLOOM-zh」為主要訴求,欲藉此讓與繁體中文相關的AI人工智慧技術、研究與應用,能更進一步地加速普及化。
聯發科表示,聯發創新基地的AI研究團隊,於今年成功開發的首個繁體中文「BLOOM-zh」大型語言模型,主要運用兩大關鍵技術,其一,就是使用能理解包括中文、英文、法文與越南文在內、共計46種語言的「BLOOM」大型語言模型,以「BLOOM」既有具備的繁體中文模型與英文模型作為開發基準。
其二,則是另外擴展涵蓋新聞、書籍、教育、百科全書與口語化等多個領域文章,包含中文與英文共計74億個參數值,作為預訓練模型。
同時,並使用來自國家教育研究院提供的大量高品質繁體中文作為主要訓練材料,加上聯發科制訂以符合國際標準繁體中文評量指標的硬體性能訓練環境,與收集近期較新語言材料,以訓練模型能具備有更易於讀懂使用者輸入指令的高效率執行能力。還有,來自中研院針對該語言模型生成的文字,進行自動偵測與評估修正,避免生成的文字內容具有特定偏見或敵意等不適內容。
BLOOM-zh 繁體中文大型語言模型釋出開源,點下列網址可前往試用、下載
https://huggingface.co/ckip-joint
另,補充說明的是,上述內文提到的「BLOOM」模型,是由總部位於紐約的AI新創公司 Hugging Face,集結全球60個國家、逾一千多位研究人員、於去年2022年推出「BigScience」開源專案項目的成果,「BLOOM」大型語言模型,具備高達1,760億個參數值,並擁有理解46種語言與13種程式語言的能力。
你可能也想看
繁中版 AI 聊天瀏覽器MixerBox 首創擬真人版的Siri 智慧問答!3步驟上手
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。
標題:全球首款「繁體中文」AI 大型語言模型登場!聯發科攜手中研院打造
地址:https://www.twnewsletter.com/article/2789.html