公視新聞網 https://news.pts.org.tw/article/804579
台籍研究員拜訪在美僑民 蒐集語料建置AI台語資料庫
發布時間:2026/4/20 19:39 更新時間:2026/4/20 20:31
方子齊 / 採訪報導
https://www.youtube.com/watch?v=ntdMoJ5tCzs
現行AI資料庫多以各地主流語言建置,台語的語料相對稀少。美國MIT的台籍研究員張凱
爲,近來建置AI台語資料庫,能夠結合智慧家電,提供台語使用者各種服務。他也親自拜
訪當地僑民,蒐集台語語料。
華府台灣僑民,對著麥克風讀出台語語句,而這筆資料,隨即輸入AI台語資料庫。當前全
球AI發展,大多以人口基數較大的語言建立資料。但在MIT的台灣籍研究員張凱爲認為,
台語的數位平權也很重要。
麻省理工學院博士後研究員張凱爲表示,「因為對開發人工智慧的學者來講,台語是一個
很有趣、 很有挑戰的語言,不像英語跟華語,在網路上有很多資料,台語的資料比較少
。」
這套名為「TaigiSpeech」的資料庫,結合關鍵字比對大型語言模型,並進行虛擬標註,
台語語料可以越過多種書寫系統,直接以語音型態,提供AI模型辨識。而這套技術,從台
語出發,未來還能套用在其他語言。
麻省理工學院博士後研究員張凱爲指出,「在美國,我可以去認識不同的學者,國際上不
同的學者,我就可以有這個機會跟大家說,台灣有台語這個語言很特殊,我希望把台語作
為一個範例,我們如果能用最少的資料,教人工智慧聽懂台語,我們就可以用相似的技術
,教人工智慧不同的語言。」
公視國際記者方子齊指出,「這座AI資料庫,以開源方式免費向全世界公開,未來也有機
會應用在居家照護,以及智慧家電等用途 。」
華府台灣基督長老教會長老簡明子表示,「因為我們這裡用的台語詞彙,就是照我們以前
來讀書前學到的,很多在美台灣人家庭是這樣,他們只懂台語跟英語,如果你用華語他們
聽不懂,也沒辦法講,所以做出來的東西,可以讓很多不同的人,用台語的人、用華語的
人都能使用,這部分我非常支持。」
在美台僑社群,保留家鄉不同的腔調,讓TaigiSpeech的現有的3000筆語料,更加豐富。
這座AI台語資料庫,由MIT與台灣大學、中央研究院、陽明交通大學以及南加州大學合作
。台美跨海研究,維護AI浪潮下,台語使用者的數位平權。
吳仲安/編輯
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.255.100.84 (臺灣)
※ 文章網址: https://webptt.cc/bbs/Gossiping/M.1776744838.A.637.html
推文 (12)
推
HisVol
台灣早就有了吧,何必去僑民找?
223.137.225.90 04/21 12:15
噓
wayne0215
沒必要讓AI去學一些具有劣根性文化的語
42.72.159.54 04/21 12:18
→
wayne0215
言
42.72.159.54 04/21 12:18
推
jumpdog5566
找黃仁勳唸一下
122.147.212.16 04/21 12:20
→
s955512
然後呢
49.216.18.142 04/21 12:22
噓
chungkai
台灣的AI專家 怎都搞這些?
114.32.8.83 04/21 12:32
→
aakkssqq
沖銷預算的計畫?
61.216.162.228 04/21 13:15
→
ipon4490031
閩南話資料庫?對岸好像有了?
39.12.184.112 04/21 13:19
推
yongguo
聽起來像是在騙預算經費的
60.249.24.199 04/21 22:15
→
ffaatt
為何不是在台灣
114.140.88.244 04/22 00:56
噓
mclarenjpn
廢文
61.228.243.214 04/23 04:03
→
mclarenjpn
https://i.imgur.com/fZvr18U.jpeg
61.228.243.214 04/23 04:03