聯發科、中研院、國教院開發 專屬繁體中文AI模型 開放下載

聯發科、中研院、國教院開發 專屬繁體中文AI模型 開放下載
最近關於語言理解AI的新聞不斷,聯發科昨日則公布了一項屬於繁體中文語言模型的好消息。
大家應該有個概念是,雖然有開源語言模型,但AI要根據模型來學習語言,需要龐大的資料庫,且不同語言需要餵養該語言的資料來分別訓練,現在釋出的大型語言模型,仍以英文為主要優化對象,繁體中文相對較少,而聯發科轄下的聯發創新基地,與中研院詞庫小組,以及國家教育研究院三方合作,宣布開放全球第一款繁體中文語言模型,且會放到開源網站提供需要者測試,可望讓繁體中文的生成式AI語言應用更普及,品質也更準確。
在開放同時,聯發創新基地也暫備一個手機網頁的介面,供語言模型研究者試用。此模型系列的評量指標,以及參數量更大(176B)的模型,將會陸續開放下載。(下載連結可追蹤中研院詞庫小組網頁)

中研院詞庫小組在2019年有公開BERT和GPT-2技術的繁體中文優化版,但因為資料量的差距,這個模型和主流的語言模型差距漸大,於是2022年5月,中研院詞庫小組和聯發創新基地、國家教育研究遠展開合作,將開源語言模型BLOOM的繁體中文模型再加以訓練優化,形成這次發表的繁中語言模型,根據聯發科表示,這個繁體中文語言模型,比目前開源可用的最大繁中模型大1,000倍,所使用的訓練資料也多1,000倍。
此模型的訓練資料,是來自國家教育研究院提供的大量高品質繁中語料,而聯發創新基地則建置訓練的硬體環境,制訂各種符合國際標準的繁體中文評量指標,並對模型進行能更有效讀懂使用者的指示(prompt)的特別訓練。
中研院詞小組則是研究自動偵測,以及改正模型生成文字,是否帶有偏見或敵意等不適合內容。資料中提到,根據評估結果,這套語言模型,均達到開源模型前所未有的效果,較能避免具有偏見或敵意的內容。

大家已經玩過ChatGPT這類對話機器人,應該也肯定這些語言模型生成的對話,已經可以表達出有知識,有生產力的效果了,即使在少量訓練資料,甚至無訓練資料之下,也依然能夠對新任務產生正確結果,已成為人工智慧往前進化不可或缺的基礎。這次開源的,專為繁體中文優化的語言模型,相信可以為正在磨拳擦掌,想在問答系統、文字編修、廣告文案生成、華語教學、客服系統等,導入AI生成對話的開發者們,帶來很大的幫助。

(圖片來源:PIXTA)
被操弄人性OK嗎?
AI越來越進步多元化了!
不錯有趕上AI潮流
感覺很不錯
加油
改天來下載研究看看~
- Manu
Nanako0625 wrote:
最近關於語言理解AI...(恕刪)

聯發科中文AI
文章分享
評分
評分
複製連結

今日熱門文章 網友點擊推薦!