主權AI缺內容產業!綠委憂淪空殼 業界示警:防中國圖書混淆語料庫
【記者施智齡/台北報導】政府去年12月推出台灣主權AI語料庫,加強國際AI語料中的繁體中文比重,綠委陳培瑜、吳思瑤等人今邀集文化內容產業、專家及數發部、文化部探討如何訂定制度對接,並提供實質預算支持,確保台灣文化在雲端時代的主權。
綠委陳培瑜、吳思瑤今召開「文化石油:AI主權建設下的出版內容產業未來」座談會,陳培瑜形容,AI是一台精密運作的機器,「文化內容」正是驅動這台機器運作的燃料,過去的老報紙、出版品、影視動畫、廣播節目、音樂、表演等,都是AI理解台灣的養分,因此內容產業絕不能在AI浪潮中缺席。
陳培瑜表示,政府政策視野尚未將內容產業納入AI發展的關鍵產業,現今國際主流大語言模型高達50%以英文訓練,只有約1%為繁體中文,面臨嚴重的邊緣化危機。雖然數發部與國科會目前以政府公開資料與無償資料建設「主權AI語料庫」,但內容產業所擁有最能代表台灣文化底蘊的珍貴語料,目前皆未納入主權AI訓練語料中。期待透過今日座談會,產官學共同研商可行的內容回饋、計價機制及加工製作預算,創造國家建設與文化內容產業的雙贏。
吳思瑤提到,台灣雖為半導體王國,但本地主權AI(TAIDE)若缺乏在地文化語料,恐成為「沒有靈魂的空殼」 。她透露,質詢國科會、中研院時發現TAIDE部分評測落後,主因在於核心語料因授權問題尚未納入。
吳強調「創作有價」,單一創作者難以與科技巨頭議價。呼籲參考歐盟《AI法案》與「公共出借權」精神,行政院應在「AI新十大建設」中跨部會總動員,由國家出面建立軟體與內容計價機制,完善著作權授權AI的集體管理組織 ,打造公平的「集體授權與分潤平台」,讓文化產權成為台灣主權AI最強大的後盾 。
中華民國出版商業同業公會全國聯合會理事長吳政鴻說,希望各大語言模型都能有台灣自己的資料,出版業內部的版權合約極少有AI相關授權,希望政府部門針對出版、雜誌或報紙,研商出授權模式。
城邦媒體集團法務總監邱大山表示,內容產業的型態複雜,涵蓋文字、圖片、影像等多重媒介,若要轉化為餵養AI的訓練資料包,必須經過資料清洗、加工及嚴格的品質控管。建議政府明確界定AI的使用範圍,並依據「製作加工費」與「授權使用費」的不同性質,提供更具彈性的階段性合作方案。
城邦媒體協理祝本堯坦言,目前各出版或媒體公司內存的數位資料庫,難以直接投入AI訓練,政府未來會否編列專項預算協助產業進行數據加工,而該筆經費是定義為加工製作費、或包含授權使用費,需進一步釐清。
祝示警,中國的歷史論述極易在社群媒體及演算法的幫助下,與台灣社會多年深耕的史觀分庭抗禮,足見台灣非常迫切需要集結各界力量,攜手完成主權 AI 的建設。
親子天下副總經理林彥傑觀察,近年中國圖書大舉進口,申請國家圖書館的ISBN,每年都有大量簡轉繁的紙本、電子、有聲等圖書進到台灣市場,如果台灣要做主權AI,我們要如何防範中國圖書混淆了語料庫?若完全以自由市場機制,中國很容易就能利用大量的出版品淹沒我們的本土內容,因此他建議未來訂定這個政策或法規時必須要訂有防範機制。此外,因為標案及補助合約中未必有相關授權條款,政府的資料也不一定可以進到主權AI,也建議未來標案、補助等政府出資的內容可考慮訂有強制授權條款及罰則。
國立故宮博物院前院長吳密察認為,AI浪潮帶來的法律與產業衝擊極為複雜,對於較商業的內容對價機制,他認為必須優先釐清權責主管機關,才能整合政策、資源與相關責任。至於台灣的文史資料,他建議立法院教育及文化委員會所主管的政府機關都應作出具體的時程承諾,針對政府內部的資料研議明確的語料規格,解決各類政府補助、委託案及採購標案的產權與授權問題。
文化部回應,支持合理授權及回饋機制,有利於產業長期發展與內容產製。針對產業定型化合約的訴求,文化部期待與各專業與產業共同產出這樣的合約。至於因AI造成的人才衝擊,文化部會在九月份所辦的全國文化會議提出討論。
數發部表示,我們必須建設自己的主權AI,並且確保有自己的乾淨語料。數發部已經在去年建置了「主權AI語料庫」,並且分階段進行,目前已經蒐集了12億個token。第一屆段先蒐集政府機關資料,第二階段希望民間響應,截至目前為止大概有30多家的民間公司及團體已經使用該語料庫。在授權機制上,數發部與經濟部智慧財產局合作訂定合理授權條款,已與200多個政府部門簽訂釋出資料。至於後續的推動,希望仰賴市場機制,建立合理的授權及回饋機制。
國科會說明,不論是電子書、知識庫或任何的文化內容,都會需要進一步加工處理才能用於訓練AI。近期已經在規劃透過科技預算,使用工具將非結構化變成結構化的資料,讓更多具有台灣文化背景的資料成為可用的AI素材,讓雲端上的台灣持續被看見,也達成公部門與民間雙贏的局面。
