數發部長林宜敬:推動台灣AI訓練語料庫 詞元數已破12億、助力在地文化與數位創新
【記者蕭文康/台北報導】數發部長林宜敬今針對台灣推動政府資料開放表示,目前政府資料開放平台已累積超過5萬筆資料集,涵蓋多元領域,持續提供各界加值利用。另數發部建置「台灣主權AI訓練語料庫」,提供具台灣文化特色與觀點的正體中文語料,提供各界查詢與運用,作為發展主權AI的重要基礎,自去年12月上線以來,詞元數(tokens)快速增加逾12億,目前已有許多政府機關配合上架高品質語料,像是文化部提供的國家文化資產,呈現土地與人民的歷史記憶,讓AI模型藉由這些語料更能理解台灣的多元樣貌。