數發部推動台灣AI訓練語料庫 林宜敬:詞元數已突破12億
【記者蕭文康/台北報導】數發部長林宜敬今針對台灣推動政府資料開放表示,目前政府資料開放平台已累積超過5萬筆資料集,涵蓋多元領域,持續提供各界加值利用。另數發部建置「台灣主權AI訓練語料庫」,提供具台灣文化特色與觀點的正體中文語料,提供各界查詢與運用,作為發展主權AI的重要基礎,自去年12月上線以來,詞元數(tokens)快速增加逾12億,目前已有許多政府機關配合上架高品質語料,像是文化部提供的國家文化資產,呈現土地與人民的歷史記憶,讓AI模型藉由這些語料更能理解台灣的多元樣貌。
吳誠文:行政院推出「AI新十大建設」,持續強化算力等五大政策工具
數發部今舉辦「114年政府資料開放頒獎典禮」,表揚中央與地方政府在資料開放、資料治理及創新應用上的卓越成果。行政院吳誠文政務委員與數位發展部林宜敬部長共同出席授獎,肯定各機關(構)長年推動資料開放的努力,本次活動首度新增「開放文本語料績優獎」,宣示台灣政府資料開放正式邁入支援AI人工智慧發展的新階段。
吳誠文在致詞時表示,隨著生成式AI快速發展,資料已從過去單純行政資源,進一步成為推動創新應用、提升治理效能與強化國家競爭力的重要角色,在AI時代,資料不只是政府治理的基礎,更是攸關國家發展的重要戰略資產。行政院推出「AI新十大建設」,持續強化算力、資料、人才、行銷及資金等五大政策工具,其中,資料治理與資料開放正是關鍵核心。
未來,行政院將持續透過制度與政策推動,深化跨機關協作與資料應用,讓政府資料不只開放,更能被有效運用,創造更大的公共價值。
林宜敬:推動台灣AI訓練語料庫 詞元數已破12億
林宜敬則表示,台灣推動政府資料開放已超過10年,目前政府資料開放平台已累積超過5萬筆資料集,涵蓋多元領域,持續提供各界加值利用。林部長強調資料讓民眾生活更便利,以自身經驗為例,開放資料提供YouBike站點與氣象資訊,切實感受資料對日常生活的幫助。其次,在AI快速發展的時代,AI的知識皆源於資料,因此開放資料更是訓練AI的重要基礎。
他進一步指出,數發部建置「台灣主權AI訓練語料庫」,提供具台灣文化特色與觀點的正體中文語料,提供各界查詢與運用,作為發展主權AI的重要基礎。「台灣主權AI訓練語料庫」自114年12月上線以來,詞元數(tokens)快速增加逾12億,目前已有許多政府機關配合上架高品質語料,像是文化部提供的國家文化資產,呈現土地與人民的歷史記憶,讓AI模型藉由這些語料更能理解臺灣的多元樣貌。
另外,也有許多國內外AI模型開發者申請使用,如TAIDE模型、Twinkle AI、AI產品與系統評測中心AIEC及國際大型AI模型Google等,鼓勵各界踴躍申請使用。
資料開放金質獎由經濟部與台中市政府分別獲得中央機關與地方政府組的第一名
本屆頒獎典禮,資料開放金質獎由經濟部與台中市政府分別獲得中央機關與地方政府組的第一名;經濟部提供發電成本、區域用電統計及備轉容量率等高應用價值資料,成為能源決策與產業分析的重要依據,台中市政府則透過空間資訊與城市治理資料開放,促進城市規劃與生活應用。
此外,資料開放人氣獎,獲獎資料集各有特色,例如農業部的「動物認領養」資料集,整合各地收容動物的基本資訊與開放認養期間,促進流浪動物認養媒合,讓毛小孩成為你我的家人;台北市及台中市提供的YouBike2.0站點與即時車位資料,讓市民朋友得以即時查詢可借還車位數量。
至於文化部、國防部及交通部獲頒今年新增「開放文本語料績優獎」,三大部會提供長年累積的大量典藏語料、政策文件與研究報告,成為AI理解台灣在地文化與公共治理的重要基礎。
數發部強調,資料開放的價值,不僅在於資訊透明,更在於促進跨域合作與社會創新,同時也是促進AI產業發展、形成AI生態系的關鍵基礎。未來將持續深化資料治理制度,提升資料品質與應用能量,攜手中央與地方機關,以及產業與民間社群,共同打造資料持續流動、持續創造價值的數位台灣,讓台灣的資料成為世界理解台灣的重要窗口。



