台灣主權AI訓練語料庫上線!數發部攜手200個機關打造本土語料資源 逾6億tokens
【記者蕭文康/台北報導】在全球 AI 快速發展的浪潮下,台灣當然也不能缺席!數位發展部今(24)日發布「台灣主權AI訓練語料庫」,廣納高品質正體中文語料,支援AI模型訓練更貼近台灣的語言、文化與生活情境,促進AI模型具備更高的本土辨識力與語意理解能力,符合我國社會與產業需求。
上架逾2000筆資料集、超過6億tokens
數發部資料創新司司長莊明芬表示,目前已有超過200個政府機關投入,上架逾2000筆資料集、超過6億tokens,收錄各機關具台灣文化特色的高品質資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域,這些資料就像AI 的教材,幫助AI 模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。
文化部提供具有台灣特色的優質資料
文化部綜合規劃司魏秋宜表示,其實李遠部長一直都非常重視整個台灣族群的發展,他認為文化部是保有最多文化資料的單位,各界對於文化部其實也有高度的期待,所以他就特別要求每個單位都要主動積極努力的去盤點跟提供資料,協助主權AI進行一些訓練提升主權AI對於台灣文化的詮釋能力,建立台灣文化在AI時代的話語權,這是文化部對於參與主權AI的訓練或是主權AI的一個建構,文化部有這樣的一個目標跟期待。
她說,其實這個工作並不容易,因為文化資料有它的一些特殊性,除了要盤點、造冊、查找檔案等等,還要確立這個工作的權利,所以這些之外還有一個重點是要確認它的一個文化價值,其實文化部非常感謝數發部在這段時間一起合作,提供的各項協助從讓文化部從零開始累積到現在也效益成果,整體貢獻度在這個部會裡面還算名列前茅。
文化部提供了具有台灣特色的優質資料,舉例來說有一個很大宗叫做國家文化記憶庫,它記錄收集了台灣的所謂的原生的文化內容,包括從族群的文化、產業的經濟、藝術人文以及到宗教民俗、生態環境等等,這些是台灣獨特的一些文化的一個風貌。第二個是國家文化資產網,它記錄了包括在文化資產保存法裡面,所立定的各類的文化資產比如古蹟、民俗、工藝、傳統戲曲、傳統知識等等,在所提供的資料裡面,它會詳細說明這些的出處,歷史沿革、儀式過程等等,其實這就是台灣這塊土地上最珍貴的一個歷史記憶。
例如公共藝術網裡面的作品的資料,包含哪些內容,比如說創作者是誰,作品的尺寸、材質、設置地點,除了之外它還會介紹這個作者的創作理念,心境及創作的過程,其實它就展現出台灣現代藝術的一個多元風貌,今天只是一個開始,文化部會持續的來釋出更多更豐富更能夠彰顯台灣元素,希望能夠共同來打造台灣主權AI的一個新紀元。
教育部提供語言辭典資料涵蓋台語、客語及國語
教育部資訊及科技教育司科長鄧慧穎則表示,教育部提供的語言辭典資料涵蓋台語、客語及國語等,有助於強化AI模型的用詞精準度與語意理解能力。
同時,為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」,數發部與經濟部智慧財產局合作,共同推出 《台灣主權AI 訓練語料授權條款-第 1 版》,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少AI訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權AI 的發展與應用。
值得一提的是,語料庫串接政府資料開放十餘年努力的成果,將過去累積的豐富文本開放資料同步至語料庫,使用者可依需求查詢及下載所需語料資料,讓語料更容易被查找及應用。
數發部表示,語料庫內容未來還會持續擴充,明年從中央機關一路推廣至地方政府及民間機構,讓更多人一起參與,透過公私協力共同促進主權AI 發展。
