本書為專著,以藏文文本處理為核心任務(wù),從理論到實踐闡述了大數(shù)據(jù)環(huán)境下藏文文本類型數(shù)據(jù)的分析方法,探討了當(dāng)前主流的文本挖掘技術(shù)以及這些技術(shù)在藏文文本分析處理中的具體應(yīng)用。書中闡述了藏文字符處理、詞匯分析、句法分析、藏文文本表示、藏文文本分類、藏文文本聚類、藏文信息抽取等藏文文本分析與文本挖掘方面的理論與方法;書中提出的相關(guān)技術(shù)方法可以直接用于解決藏文文本分析與文本挖掘的問題。本書可作為高校藏文信息處理相關(guān)方向研究生的教材或參考書,也可以作為從事藏語自然語言處理應(yīng)用研究領(lǐng)域?qū)I(yè)研究人員的參考資料。
艾金勇,西藏民族大學(xué)副教授;研究方向為藏文信息處理、數(shù)字圖書館技術(shù);近年來參與多項和西藏自治區(qū)級項目,主持西藏自治區(qū)級項目2項;發(fā)表論文30余篇,其中核心期刊論文7篇;
陳小瑩,西藏民族大學(xué)講師;
第1章 緒 論
1.1 藏文概述
1.1.1 藏文文字的性質(zhì)
1.1.2 藏文文法的主要內(nèi)容
1.2 藏文文本特征
1.2.1 藏文文字特征
1.2.2 藏文詞語特征
1.2.3 藏文句子特征
1.3 藏文編碼標(biāo)準(zhǔn)情況
1.3.1 ASCII碼
1.3.2 中文字符的編碼
1.3.3 藏文字符編碼國家標(biāo)準(zhǔn)
1.3.4 國際字符編碼UNICODE及藏文字符編碼國際標(biāo)準(zhǔn)
1.4 藏文文本挖掘
1.4.1 文本挖掘基本概念
1.4.2 文本挖掘主要技術(shù)
1.4.3 文本挖掘的一般過程
1.4.4 文本挖掘面臨的困難
第2章 藏文字符處理
2.1 藏字的結(jié)構(gòu)
2.1.1 藏字的結(jié)構(gòu)分析
2.1.2 藏字的構(gòu)件
2.2 藏文字符輸入技術(shù)
2.2.1 藏文字符鍵盤編碼理論
2.2.2 藏文字符鍵盤設(shè)計分析
2.2.3 藏文字符鍵盤布局國家標(biāo)準(zhǔn)
2.2.4 Windows藏文字符鍵盤輸入技術(shù)
2.3 藏文文字的規(guī)范化處理
2.3.1 特殊符號的歸一化
2.3.2 外借詞的藏文化處理
2.3.3 黏著語的規(guī)范化處理
2.4 藏文文字的結(jié)構(gòu)識別
2.4.1 小字符集編碼的藏文音節(jié)結(jié)構(gòu)
2.4.2 現(xiàn)代藏文音節(jié)正字法知識
2.4.3 藏文文字結(jié)構(gòu)的辨識
2.4.4 藏文音節(jié)構(gòu)件的確定算法
第3章 藏文詞法分析
3.1 藏文詞法分析概述
3.1.1 藏文詞法分析研究的問題
3.1.2 詞法分析研究面臨的困難
3.1.3 一體化藏文詞法分析框架
3.1.4 藏文詞法分析的意義與作用
3.1.5 藏文詞法分析的目標(biāo)
3.2 藏文自動分詞
3.2.1 藏文自動分詞概述
3.2.2 藏文分詞的方法
3.2.3 基于條件隨機場的藏文分詞方法值
3.2.4 藏文未登錄詞的處理方法
3.3 藏文詞性標(biāo)注
3.3.1 藏文詞類標(biāo)記集
3.3.2 基于熵模型的藏文詞性標(biāo)注
3.4 藏族人名識別
3.4.1 藏族人名的結(jié)構(gòu)
3.4.2 藏族人名的特點
3.4.3 藏族人名的識別策略
3.4.4 基于詞位的藏族人名識別方法
3.4.5 基于條件隨機場的藏族人名識別
3.5 藏文詞處理方法測評
3.5.1 黃金標(biāo)準(zhǔn)
3.5.2 評價指標(biāo)
第4章 藏文句法分析
4.1 句法分析概述
4.1.1 句法分析概念
4.1.2 句法分析基本策略
4.2 藏文句子概述
4.2.1 藏文句子概念
4.2.2 藏文句子特點
4.2.3 藏文句尾詞性特征分析
4.3 藏文句子類別
4.3.1 藏文句子分類
4.3.2 藏文句子基本結(jié)構(gòu)
4.3.3 藏文句型分類
4.3.4 藏文句型功能特征分析
4.4 藏文句法分析
4.4.1 句法分析概述
4.4.2 基于概率上下文無關(guān)文法的藏語句法分析
4.4.3 藏文依存句法分析
第5章 藏文文本表示模型研究
5.1 文本表示概述
5.2 文本特征項
5.3 文本特征表示方法
5.3.1 基于字的特征表示法
5.3.2 基于詞的特征表示法
5.3.3 基于短語的特征表示法
5.3.4 基于概念的特征表示法
5.4 藏文文本表示方法研究
第6章 藏文文本分類算法研究
6.1 文本分類概述
6.1.1 文本分類定義
6.1.2 自動文本分類
6.1.3 文本分類的基本流程
6.1.4 文本分類的應(yīng)用領(lǐng)域
6.2 文本特征提取方法
6.2.1 率統(tǒng)計法
6.2.2 互信息法
6.2.3 信息增益法
6.2.4 卡方檢驗法
6.2.5 其他方法
6.3 文本分類算法
6.3.1 樸素貝葉斯模型
6.3.2 支持向量機算法
6.3.3 KNN算法
6.4 算法性能評價
6.4.1 二元分類評價
6.4.2 多類問題評價
6.5 藏文文本分類算法研究
6.5.1 基于樸素貝葉斯的藏文文本分類研究
6.5.2 基于KNN模型的藏文文本分類研究
6.5.3 基于SVM:的藏文文本分類研究
第7章 藏文文本聚類算法研究
7.1 文本聚類概述
7.1.1 文本聚類的概念
7.1.2 文本聚類的任務(wù)
7.1.3 文本分類的應(yīng)用領(lǐng)域
7.2 文本聚類分析的常用特征表示
7.3 文本相似性度量
7.3.1 樣本間的相似性
7.3.2 簇間的相似性
7.3.3 樣本與簇間的相似性
7.4 文本聚類方法
7.4.1 劃分聚類方法
7.4.2 層次聚類方法
7.4.3 密度聚類方法
7.4.4 基于模型的聚類
7.4.5 競爭聚類類型
7.5 聚類算法性能評估
7.6 藏文文本聚類方法
第8章 藏文web文本挖掘方法研究
8.1 web文本挖掘概述
8.1.1 web文本數(shù)據(jù)應(yīng)用及特點
8.1.2 web文本挖掘及挖掘類型
8.1.3 web文本挖掘過程
8.2 網(wǎng)頁結(jié)構(gòu)特點
8.2.1 網(wǎng)頁特征
8.2.2 N頁結(jié)構(gòu)
8.2.3 網(wǎng)頁架構(gòu)
8.3 web文本信息獲取方式
8.3.1 網(wǎng)絡(luò)爬蟲
8.3.2 其他web信息程序獲取方式
8.3.3 web文本信息抽取
8.3.4 自然語言文本結(jié)構(gòu)化信息抽取
8.4 web信息文本抽取相關(guān)知識
8.4.1 XPath技術(shù)
8.4.2 解析模板以及解析模板的生成技術(shù)
8.5 藏文網(wǎng)頁文本主題信息抽取算法實現(xiàn)
8.5.1 藏文網(wǎng)頁規(guī)范化處理
8.5.2 藏文網(wǎng)頁標(biāo)簽的線性重構(gòu)
8.5.3 藏文網(wǎng)頁正文抽取算法實現(xiàn)
8.5.4 藏文網(wǎng)頁主題抽取算法實現(xiàn)
參考文獻