廣告

數位部攜手中研院強化「台灣主權AI」 釋出逾620萬詞元專業語料

數位發展部宣布與中央研究院正式展開深度合作,於「臺灣主權 AI 訓練語料庫」上架多筆具代表性的研究與科普文本資源。。取自Pixabay zoomin
數位發展部宣布與中央研究院正式展開深度合作,於「臺灣主權 AI 訓練語料庫」上架多筆具代表性的研究與科普文本資源。。取自Pixabay
分享 分享 連結 訂閱 APP

【記者於維奕/綜合報導】為厚植我國主權AI發展基礎,數位發展部宣布與中央研究院正式展開深度合作,於「臺灣主權 AI 訓練語料庫」上架多筆具代表性的研究與科普文本資源。本次釋出的語料規模超過620萬詞元(tokens),範疇橫跨學術研究、政策分析、歷史文化及科學傳播,展現中研院深厚的研究能量,並為國內AI模型在專業領域的應用提供強而有力的數據支持。

專業領域語料助攻 強化AI模型推理與精準度

數位發展部指出,高質量的專業語料是提升AI模型理解力與推理能力的關鍵。透過這批具備專業深度與知識價值的文本,模型不僅能在特定情境下精準回應,更能有效支援檢索增強生成(RAG)知識庫、專業問答系統、模型微調及知識萃取等深層應用,進一步促進具備臺灣文化脈絡與專業素養的 AI 產業鏈發展。

涵蓋學術與歷史文本 打造多元知識轉譯能力

此次由中研院提供的資源內容極為多元。在政策層面,「政策建議書」涵蓋農業、科技及金融改革等深入分析,提供模型前瞻性的觀點;在學術領域,「研究成果選輯」匯集了人文社會、數理及生命科學的精華,使 AI 能夠掌握不同領域的知識背景。值得關注的是,本次也納入了「研之有物」與「科普專欄」,這類文本將艱澀的科學知識轉化為淺白語言,是 AI 學習知識轉譯與多元語氣的重要素材。此外,「臺灣史研究所之館藏選粹」與「中研誠信電子報」則分別補足了 AI 對於臺灣在地歷史視角的理解,以及在科研倫理判斷上的能力。

累計上架逾12億詞元 持續厚植我國AI發展基礎

自 2025 年底上線以來,「臺灣主權AI訓練語料庫」已累計上架超過 3,000 筆資料集,總計逾12億詞元。數位部強調,未來將持續攜手各大機關與學研單位,擴大釋出具備臺灣特色與專業價值的文本資料,構築更具競爭力的主權 AI生態。目前相關資料集已開放申請,數位部歡迎AI模型訓練者踴躍前往語料庫官網(https://taic.moda.gov.tw)下載使用,共同拓展臺灣AI應用的無限可能。

知嚴選

⭐️ 即刻下載!無蓋版廣告純淨版《知新聞》App

# 數位部 # 中研院 # 台灣主權AI」 # 詞元