藏語分詞研究是藏語文本信息處理*基本的研究工作,國內(nèi)藏語分詞研究經(jīng)歷了十多年的歷史,研究方法也從*初的基于詞典匹配的規(guī)則方法到基于大規(guī)模文本的統(tǒng)計(jì)方法。但是到目前為止沒有一個(gè)實(shí)用的藏語分詞軟件和供分詞研究的評(píng)測(cè)語料庫。本書作者針對(duì)藏語分詞中的各種問題,進(jìn)行細(xì)致的闡述,并在同一評(píng)測(cè)語料庫的基礎(chǔ)上,對(duì)各種分詞方法進(jìn)行實(shí)驗(yàn)、測(cè)試,比較。
龍從軍,男,1978年9月,中國社會(huì)科學(xué)院民族學(xué)與人類學(xué)研究所語音學(xué)與計(jì)算語言學(xué)研究室助理研究員,博士,中國科學(xué)院軟件研究所基礎(chǔ)軟件研究中心博士后(在站)。主要研究方向:藏語計(jì)算語言學(xué),尤其在藏語自動(dòng)分詞、詞性自動(dòng)標(biāo)注、句法語義自動(dòng)標(biāo)注方面進(jìn)行過大量的研究。撰寫多篇論文,出版合著2本。
第1章 現(xiàn)代藏文文本特點(diǎn)
1.1現(xiàn)代藏文字母、符號(hào)和編碼
1.2藏文字符編碼與分詞的關(guān)系
1.3藏文音節(jié)結(jié)構(gòu)
1.4藏文的數(shù)字
1.5藏文黏寫特點(diǎn)
1.6藏文標(biāo)點(diǎn)符號(hào)特點(diǎn)
1.7 藏文命名實(shí)體的特點(diǎn)
1.7.1藏文人名特點(diǎn)
1.7.2藏文地名的特點(diǎn)
1.7.3藏文機(jī)構(gòu)名的特點(diǎn)
1.7.4藏文時(shí)間詞特點(diǎn)
1.7.5藏文的地址特點(diǎn)
1.8藏文文本的其他特點(diǎn)
第2章 藏語分詞研究的歷史與現(xiàn)狀
2.1引言
2.2藏語分詞的思路
2.3藏語分詞原則及分詞詞表研究
2.4藏語分詞技術(shù)研究
2.5藏語現(xiàn)有分詞系統(tǒng)比較
第3章 藏語文本分詞規(guī)范與原則
3.1藏語機(jī)器分詞原則的討論
3.1.1 漢語分詞原則的研究歷史
3.1.2 藏文分詞原則的研究歷史
3.2藏語分詞原則的操作
3.2.1藏語分詞總原則
3.2.2藏語分詞細(xì)則
3.3 本書分詞語料庫簡介
第4章 藏語黏寫形式切分方法比較研究
4.1 藏語黏寫形式特點(diǎn)
4.1.1黏寫形式的含義
4.1.2 黏寫形式切分困難
4.1.3黏寫形式的分布
4.2黏寫形式切分方法
4.2.1基于規(guī)則的還原法
4.2.2基于規(guī)則和統(tǒng)計(jì)結(jié)合的切分方法
4.2.3基于統(tǒng)計(jì)的字位標(biāo)注法
4.3黏寫形式切分實(shí)驗(yàn)及結(jié)果比較
4.3.1基于規(guī)則的一體化切分實(shí)驗(yàn)
4.3.2基于統(tǒng)計(jì)的黏寫分詞一體化切分實(shí)驗(yàn)
4.3.4基于統(tǒng)計(jì)的“單切分”實(shí)驗(yàn)
4.3.5基于統(tǒng)計(jì)和規(guī)則相結(jié)合實(shí)驗(yàn)
第5章 基于規(guī)則的藏語分詞研究
5.1 規(guī)則分詞
5.1.1*大匹配分詞法
5.1.2逐詞遍歷匹配法
5.2藏語規(guī)則匹配分詞存在的問題
5.2.1未登錄詞對(duì)分詞的影響
5.2.3歧義切分對(duì)分詞的影響
5.3基于規(guī)則分詞方法的改進(jìn)
5.3.1基于組塊的分詞改進(jìn)
5.3.2加入詞頻信息
5.3.3設(shè)立切詞標(biāo)記
5.3.4詞典排序的改進(jìn)
5.4規(guī)則分詞評(píng)測(cè)標(biāo)準(zhǔn)及實(shí)驗(yàn)分析
5.4.1 分詞評(píng)測(cè)標(biāo)準(zhǔn)
5.4.2分詞評(píng)測(cè)語料
5.4.3 *大匹配分詞實(shí)驗(yàn)
5.4.4 基于黏寫預(yù)處理的規(guī)則分詞實(shí)驗(yàn)
5.4.5 基于格分塊的規(guī)則分詞實(shí)驗(yàn)
5.5 基于規(guī)則的分詞軟件簡介
5.5.1軟件說明
5.5.2軟件安裝與卸載
5.5.3軟件平臺(tái)
5.5.4軟件操作
第6章 基于規(guī)則分詞的數(shù)詞處理
6.1藏文的數(shù)字及數(shù)詞結(jié)構(gòu)
6.2基于規(guī)則的藏文數(shù)字識(shí)別
6.2.1數(shù)字構(gòu)件的分類
6.2.2 數(shù)字識(shí)別
6.2.3 實(shí)驗(yàn)結(jié)果
第7章 基于*大熵模型的藏文分詞研究
7.1引言
7.2*大熵模型
7.2.1信息熵
7.2.2互信息
7.2.3*大熵原理
7.2.4*大熵模型
7.3*大熵模型在藏語分詞中的應(yīng)用
7.3.1*大熵模型應(yīng)用于藏語分詞的基本思想
7.3.2*大熵模型的下載與安裝
7.3.3*大熵藏文分詞模型的訓(xùn)練
7.3.4*大熵藏文分詞模型的測(cè)試
7.4 基于字位的藏文*大熵分詞實(shí)驗(yàn)
7.4.1 *大熵分詞實(shí)驗(yàn)
7.4.2錯(cuò)誤分析
第8章 基于條件隨機(jī)場(chǎng)模型的藏文分詞研究
8.1條件隨機(jī)場(chǎng)模型簡介
8.2條件隨機(jī)場(chǎng)的藏文分詞的原理和方法
8.3字位標(biāo)注的藏文分詞原理
8.3.1基本思想
8.3.2標(biāo)簽集的優(yōu)化
8.3.3特征模板集
8.4 實(shí)驗(yàn)及結(jié)果分析
8.4.1 實(shí)驗(yàn)設(shè)計(jì)
8.4.2 實(shí)驗(yàn)結(jié)果與分析
8.4.3 錯(cuò)誤分析
8.4.4 基于統(tǒng)計(jì)的數(shù)字處理
8.4.5 基于統(tǒng)計(jì)的數(shù)字處理實(shí)驗(yàn)及結(jié)果
8.5基于統(tǒng)計(jì)的藏語分詞軟件簡介
8.5.1軟件說明
8.5.2軟件安裝與卸載
8.5.3軟件使用
8.5.4 打開文件
8.5.5 模型訓(xùn)練
8.5.6 利用模型分詞
第9章 基于融合方法的藏文分詞研究
9.1統(tǒng)計(jì)與規(guī)則相結(jié)合的藏語分詞
9.1.1 TBL方法原理
9.1.2 TBL模型
9.1.3 TBL融合實(shí)驗(yàn)
9.2統(tǒng)計(jì)、詞典和語言規(guī)則相結(jié)合的分詞實(shí)驗(yàn)
9.2.1黏寫音節(jié)切分錯(cuò)誤校正
9.2.2由語法問題導(dǎo)致切分錯(cuò)誤的校正
9.2.3歧義切分錯(cuò)誤校正
9.3分詞實(shí)驗(yàn)語料一致性檢測(cè)
第10章 藏語分詞、詞性標(biāo)注一體化研究
10.1分詞和詞性標(biāo)注一體的概述
10.2藏語詞性標(biāo)注的現(xiàn)狀和問題
10.3 藏語分詞、詞性標(biāo)注一體化研究
10.3.1基于詞級(jí)的分詞標(biāo)注一體化研究
10.3.2基于字的分詞標(biāo)注一體化研究
附錄1信息處理用現(xiàn)代藏語分詞規(guī)范(草案)
1.1范圍
1.2規(guī)范性引用文件
1.3術(shù)語和定義
1.4總則
1.5具體說明
1.6參考文獻(xiàn)
附錄2 信息處理用現(xiàn)代藏語詞類標(biāo)記集規(guī)范(草案)
2.1前言
2.2范圍
2.3規(guī)范性引用文件
2.4術(shù)語和定義
2.5總則
2.6具體說明
2.2.7有關(guān)說明
2.2.8參考文獻(xiàn)
附錄3 多級(jí)標(biāo)注語料庫簡介
3.1語料加工平臺(tái)
3.2語料選擇
附錄4 CRF工具包介紹
4.1 CRF工具下載與安裝
4.2制作相關(guān)的文件
4.3訓(xùn)練模型
4.4測(cè)試
附錄5分詞測(cè)試工具包使用說明
5.1工具包下載和安裝
5.2制作相關(guān)文件
5.3測(cè)試
附錄6 fnTBL工具包介紹
6.1工具包下載和安裝
6.2制作運(yùn)行fnTBL工具包的相關(guān)運(yùn)行文件。
6.3訓(xùn)練fnTBL模型
6.4測(cè)試
附錄7 藏文拉丁轉(zhuǎn)寫表
參考文獻(xiàn)