數(shù)據(jù)驅(qū)動的機器翻譯技術(shù)
定 價:108 元
叢書名:前沿科技·人工智能系列
- 作者:黃河燕主編
- 出版時間:2024/7/1
- ISBN:9787121483073
- 出 版 社:電子工業(yè)出版社
- 中圖法分類:TP391.2
- 頁碼:298頁
- 紙張:
- 版次:1
- 開本:24cm
機器翻譯(MachineTranslation,MT)是指利用計算機實現(xiàn)從一種自然語言(稱為源語言)到另一種自然語言(稱為目標語言)的自動翻譯的過程和技術(shù),是人工智能(ArtificialIntelligence,AI)和自然語言處理(NaturalLanguageProcessing,NLP)領(lǐng)域的重要應用和熱點問題之一。本書從數(shù)據(jù)驅(qū)動的機器翻譯角度介紹了統(tǒng)計機器翻譯和神經(jīng)機器翻譯的基本模型和技術(shù),機器翻譯的評價方法及領(lǐng)域內(nèi)相關(guān)會議。在此基礎(chǔ)上,首先梳理了句法、語義等語言學知識在數(shù)據(jù)驅(qū)動機器翻譯中的應用,包含了統(tǒng)計機器翻譯、神經(jīng)機器翻譯及句法知識與神經(jīng)機器翻譯的聯(lián)合學習模型。接下來,介紹了其他語言學知識在數(shù)據(jù)驅(qū)動機器翻譯中的應用,如句對齊、翻譯記憶、詞形等。此外還介紹了數(shù)據(jù)驅(qū)動機器翻譯中常見的的零代詞問題以及多語言訓練問題。最后,本書對數(shù)據(jù)驅(qū)動的機器翻譯研究內(nèi)容進行了總結(jié),并展望未來研究方向。
第1章 緒論 1
1.1 研究背景及意義 1
1.2 機器翻譯發(fā)展簡史 2
1.3 研究內(nèi)容及全書總覽 4
參考文獻 8
第2章 基礎(chǔ)理論 9
2.1 基于規(guī)則的機器翻譯 9
2.2 基于實例的機器翻譯 10
2.3 統(tǒng)計機器翻譯 11
2.3.1 噪聲信道模型 11
2.3.2 對數(shù)線性模型 12
2.3.3 基于短語的統(tǒng)計機器翻譯模型 12
2.3.4 基于句法的統(tǒng)計機器翻譯模型 14
2.3.5 語言模型 16
2.3.6 統(tǒng)計機器翻譯存在的問題 20
2.4 神經(jīng)機器翻譯 20
2.4.1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的神經(jīng)機器翻譯模型 21
2.4.2 基于卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)機器翻譯模型 24
2.4.3 基于注意力網(wǎng)絡(luò)的神經(jīng)機器翻譯模型 27
2.4.4 束搜索 30
2.4.5 神經(jīng)機器翻譯存在的問題及發(fā)展趨勢 31
參考文獻 34
第3章 基于句法語義知識的統(tǒng)計機器翻譯 44
3.1 引言 44
3.2 基于句法和語義的統(tǒng)計機器翻譯基礎(chǔ)方法 45
3.2.1 基于句法的統(tǒng)計機器翻譯模型 46
3.2.2 語義角色標注 47
3.2.3 語義角色標注在統(tǒng)計機器翻譯中的應用 48
3.2.4 串到樹模型 49
3.3 基于淺層語義結(jié)構(gòu)的統(tǒng)計機器翻譯 52
3.3.1 謂詞-論元增強型句法樹 52
3.3.2 句法補充的謂詞-論元樹 54
3.3.3 翻譯規(guī)則的學習 55
3.3.4 實驗與分析 56
3.4 基于句法語言模型的統(tǒng)計機器翻譯 62
3.4.1 句法語言建模的基礎(chǔ)方法 62
3.4.2 融合淺層句法特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型 63
3.5 本章小結(jié) 70
參考文獻 71
第4章 句法知識與神經(jīng)機器翻譯聯(lián)合學習模型 82
4.1 引言 82
4.2 樹結(jié)構(gòu)學習的基礎(chǔ)方法 83
4.2.1 樹結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)編碼器 84
4.2.2 樹結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)解碼器 85
4.2.3 無監(jiān)督樹學習 85
4.2.4 利用統(tǒng)計機器翻譯短語表 87
4.2.5 在神經(jīng)機器翻譯中學習短語 87
4.2.6 基于句法的神經(jīng)機器翻譯 88
4.2.7 對齊學習 89
4.3 源端句法信息與神經(jīng)機器翻譯聯(lián)合學習模型 89
4.3.1 無監(jiān)督樹編碼器 90
4.3.2 無監(jiān)督樹與神經(jīng)機器翻譯聯(lián)合學習 92
4.3.3 實驗分析 97
4.3.4 實例分析 101
4.4 雙語句法成分對齊與神經(jīng)機器翻譯聯(lián)合學習模型 105
4.4.1 概述 105
4.4.2 無監(jiān)督樹編碼器 107
4.4.3 對齊樣本構(gòu)建 107
4.4.4 深度度量損失 108
4.4.5 實驗分析 109
4.5 基于跨語言句法互信息的機器翻譯 114
4.5.1 概述 114
4.5.2 雙語句法對齊 117
4.5.3 最大化雙語句法相互依存 120
4.5.4 實驗分析 121
4.6 本章小結(jié) 126
參考文獻 126
第5章 基于句子對齊信息的機器翻譯訓練 138
5.1 引言 138
5.2 問題分析 141
5.3 基于自注意力機制的對齊判別器 143
5.3.1 基于門控自注意力網(wǎng)絡(luò)的句子編碼器 144
5.3.2 句子對齊得分計算與判別器損失函數(shù) 145
5.3.3 判別器訓練數(shù)據(jù)構(gòu)建與預訓練 146
5.4 基于對齊信息的神經(jīng)機器翻譯對抗訓練 147
5.4.1 判別損失函數(shù) 147
5.4.2 Gumbel-Softmax 采樣 148
5.4.3 教師強制步驟 149
5.4.4 固定的判別器與對抗的判別器 149
5.5 基于對齊感知的神經(jīng)機器翻譯解碼方法 150
5.5.1 融合判別器得分的解碼得分 151
5.5.2 融合基于對齊的價值網(wǎng)絡(luò)解碼 151
5.6 本章小結(jié) 152
參考文獻 157
第6章 融合翻譯記憶的神經(jīng)機器翻譯方法 163
6.1 引言 163
6.2 問題分析 163
6.3 融合翻譯記憶相似度的文本預處理方法 165
6.3.1 模板 165
6.3.2 相關(guān)工作 166
6.3.3 基于多維相似度的機器翻譯測試集預處理策略 167
6.4 融合翻譯記憶的機器翻譯訓練方法 170
6.4.1 引言 170
6.4.2 相關(guān)工作 171
6.4.3 基于多維相似度的機器翻譯訓練方法 172
6.4.4 實驗分析 174
6.5 融合模板翻譯記憶的神經(jīng)機器翻譯方法 178
6.5.1 概述 178
6.5.2 相關(guān)工作 179
6.5.3 翻譯模板的定義與構(gòu)建 180
6.5.4 融合模板翻譯記憶的神經(jīng)機器翻譯 187
6.5.5 實驗分析 191
6.6 本章小結(jié) 197
參考文獻 198
第7章 詞形預測與神經(jīng)機器翻譯聯(lián)合模型 202
7.1 引言 202
7.2 問題分析 204
7.2.1 拉丁字符大小寫對神經(jīng)機器翻譯的影響 204
7.2.2 單詞陰陽性對機器翻譯的影響 206
7.3 大小寫敏感的神經(jīng)機器翻譯 207
7.3.1 神經(jīng)機器翻譯模型 207
7.3.2 引入大寫標注的神經(jīng)機器翻譯 208
7.3.3 神經(jīng)機器翻譯與大寫預測聯(lián)合學習 209
7.4 性別敏感的神經(jīng)機器翻譯 212
7.4.1 性別平衡偽數(shù)據(jù)構(gòu)建方法 213
7.4.2 插入性別標注 214
7.4.3 性別預測與機器翻譯聯(lián)合建模 214
7.5 本章小結(jié) 215
參考文獻 218
第8章 融合零代詞信息的機器翻譯方法 225
8.1 引言 225
8.2 零代詞推斷的基礎(chǔ)方法 227
8.2.1 基于規(guī)則的方法 227
8.2.2 序列標注法 228
8.2.3 融入語義特征的方法 229
8.3 基于特征的零代詞推斷方法 232
8.3.1 融入雙語信息的語料重構(gòu) 232
8.3.2 零代詞處理方法 235
8.4 基于CRF和SVM的零代詞信息構(gòu)建方法 236
8.4.1 基于CRF的零代詞位置標注 236
8.4.2 基于SVM的零代詞分類 238
8.5 基于深度學習的零代詞信息構(gòu)建方法 242
8.5.1 基于LSTM的零代詞位置標注 243
8.5.2 基于LSTM的零代詞分類 245
8.5.3 基于編碼器-解碼器架構(gòu)的零代詞重構(gòu)模型 245
8.6 融合零代詞信息的統(tǒng)計機器翻譯 247
8.6.1 概述 247
8.6.2 語料預處理方法 247
8.6.3 概率特征方法 248
8.6.4 譯文重排序方法 250
8.6.5 實驗分析 251
8.6.6 實驗結(jié)果及分析 254
8.7 基于無監(jiān)督樹學習和零代詞重構(gòu)的神經(jīng)機器翻譯 258
8.7.1 概述 258
8.7.2 基于零代詞重構(gòu)的口語機器翻譯模型 259
8.7.3 實驗及分析 263
8.8 本章小結(jié) 271
參考文獻 271
第9章 基于因果推斷的譯文評分去噪聲方法 274
9.1 引言 274
9.2 相關(guān)工作和背景知識 278
9.2.1 NMT譯文長度偏置問題 278
9.2.2 句子級譯文質(zhì)量直接估計任務(wù) 281
9.3 基于HSR的譯文評分降噪方法 283
9.3.1 基于HSR的NMT解碼長度偏置修正 283
9.3.2 討論 285
9.3.3 譯文質(zhì)量估計系統(tǒng)輸出降噪方法 287
9.4 NMT長度偏置消除實驗 290
9.4.1 回歸模型的選擇 292
9.4.2 方法自適應性 294
9.5 譯文質(zhì)量估計系統(tǒng)去噪聲實驗 296
9.6 本章小結(jié) 299
參考文獻 299
第10章 機器翻譯評價及相關(guān)評測會議 306
10.1 機器翻譯評價指標 307
10.1.1 準確率和召回率 307
10.1.2 BLEU評價指標 308
10.1.3 詞錯誤率WER 308
10.1.4 翻譯編輯率TER 309
10.1.5 NIST評價指標 309
10.1.6 METEOR評價指標 310
10.2 機器翻譯大會WMT 310
10.3 全國機器翻譯大會CCMT 312
10.4 國際口語翻譯大會IWSLT 313
10.5 NIST機器翻譯公開評測 314
10.6 亞洲語言機器翻譯研討會WAT 315
參考文獻 316
第11章 總結(jié)與展望 319
11.1 本書總結(jié) 319
11.2 未來研究方向展望 320