數發部長︰打造台灣主權AI訓練語料庫

國立台東大學昨天舉辦研討會,數發部長黃彥男(右三)見證之下,長茂科技董事長黃鋕銘(右四)贈與東大資安軟體,由校長鄭憲宗(左四)代表接受。 (記者黃明堂攝)
〔記者黃明堂/台東報導〕中國擁大量資料,將造成AI運算模式大中國化,特別是產生政治上偏見;有鑑於此,數位發展部部長黃彥男表示,正在打造台灣主權AI訓練語料庫,由機關先行,鼓勵企業釋出資料,並訂定授權條款,消弭資料用於AI訓練涉及的智慧財產權疑慮。
台東大學昨天舉辦資訊管理暨電子商務經營管理研討會,黃彥男見證之下,長茂科技董事長黃鋕銘贈與東大價值五百萬元資安軟體,擁三大核心技術,確保師生個人資料不被竄改或外洩。
黃彥男講述AI產業五大政策工具時特別提到,台灣的資料量在世界上相當少,AI的大語言模型很容易搜尋到中國的資料,形成中國觀點,政治上的偏見更是可以想像,所以台灣要有自己的資料模型,把台灣本土資料拿出來,供AI大語言模型訓練。
黃彥男說,為精進台灣生成式AI對話引擎,數發部已著手請各部會開放出超過五萬筆資料,也徵集高品質正體中文語料,採用台灣文化特色與觀點,繁體中文塊狀資料具備語意連貫性,內容完整且流暢,非僅由數字圖表或修列式文字構成;由於更多的資料是在民間企業,當務之急也是要訂法法律條款,請企業釋出資料來,無償供AI訓練使用。