作者(英文):Chin-Heng Liu
論文名稱(英文):A Study on Taiwanese Indigenous Languages Machine Translation by Deep Learning
指導教授(英文):Shi-Jim Yen
口試委員(英文):Cheng-Chin Chiang
Wen-Cheng Lin
關鍵詞(英文):Taiwanese Indigenous PeoplesAmisAtayalBununDeep LearningMachine Translation
語言是世界文明發展不可或缺的重要媒介,然而現今許多少數民族語言卻逐漸消逝,成為了瀕危語言(endangered languages)[1]。根據中華民國原住民族委員會於2016年所公布的調查報告[2]顯示,台灣原住民(Taiwanese indigenous peoples)的年齡層越低,族語(indigenous languages)的使用比率有越低的現象,呈現出族語流失的潛在危機。

本研究選擇台灣原住民族中,人口數較多的幾個族群[3]——阿美族、泰雅族,以及布農族,做出一套「原住民語翻譯系統」,利用深度學習(Deep Learning)技術,能夠將族語讀入後,透過機器翻譯(Machine Translation),自動轉換為國語。期許能藉此加強推廣原住民語,進而增進族語的傳承。
Language is an indispensable medium for the development of world civilization, but nowadays many minority languages have gradually disappeared and become endangered languages. According to a survey published in 2016 by the Council of Indigenous Peoples of the Republic of China, the lower the average age of Taiwanese indigenous peoples, the lower the vitality of the indigenous languages, which presents a potential crisis of indigenous language loss.

In this study, we choose several Taiwanese indigenous ethnic groups with a larger population, the Amis, the Atayal, and the Bunun, building a "Taiwanese Indigenous Languages Translation System." Using the Deep Learning technology, it is able to convert indigenous languages to Mandarin automatically through the Machine Translation after reading the languages. We hope that we can promote the learning of Taiwanese indigenous languages and enhance the inheritance of endangered languages.
第一章 緒論 .................................................. 1
第一節 研究背景 .......................................... 1
第二節 研究動機 .......................................... 2
第三節 論文概述 .......................................... 4
第二章 Sequence to Sequence簡介 ......... 5
第一節 傳統機器翻譯 vs. Seq2seq ............ 5
第二節 Sequential model .......................... 6
第三節 Encoder & Decoder ..................... .. 6
第三章 資料來源與蒐集 ............................... 7
第一節 語料來源 ........................................... 7
第二節 族語E樂園 ......................................... 7
第三節 原住民族語言線上詞典 ................... 8
第四節 收集方法——網路爬蟲 .................... 9
第四章 研究方法與步驟 ...............................11
第一節 研究環境 .......................................... 11
第二節 模型架構 .......................................... 11
第三節 資料前處理 ...................................... 12
第四節 優化方法與損失函數 ...................... 13
第五節 初期實驗階段 .................................. 14
第六節 資料擴增 .......................................... 15
第七節 分詞 .................................................. 16
第八節 重新測試資料 .................................. 17
第九節 反向測試 .......................................... 18
第十節 語言種類辨識 .................................. 18
第五章 研究成果與討論 .............................. 19
第一節 BLEU ................................................ 19
第二節 整合至圖形化介面 .......................... 21
第六章 結論與未來展望 .............................. 23
參考文獻 ....................................................... 25
