這部著作包括十一章內(nèi)容,遵循由易到難、循序漸進的原則。第一章是R語言入門,第二章介紹字符串處理。第三章介紹常見的文本統(tǒng)計方法,包括統(tǒng)計文本詞數(shù)、句子數(shù)和平均句長、繪制詞頻表以及詞頻分布圖。
第四章依據(jù)R數(shù)據(jù)包koRpus介紹與討論文本詞匯多樣性測量方法,包括傳統(tǒng)的類符-形符比和平均分段類符-形符比等。第五章同第四章一樣利用R數(shù)據(jù)包koRpus,重點介紹文本可讀性多種測量方法和一種聽力文本難易度的測量方法,包括自動化可讀性指數(shù)(ARI)和Flesch閱讀難易度等。
第六章聚焦于n元組和關(guān)鍵詞提取方法,內(nèi)容包括文本詞語關(guān)鍵性檢驗方法(如卡方檢驗和似然比檢驗)、比較學生故事復述文本與原文本中使用的關(guān)鍵詞以及比較美國總統(tǒng)就職演說文本中的關(guān)鍵詞等。第七章介紹兩種特殊形式的n元組,即搭配和搭配構(gòu)式。第八章介紹文檔或文本相似度和距離測量,包括余弦相似度、Jaccard相似度、歐式距離、Minkowski距離和潛在語義分析等。第九章著重介紹基于整潔文本的自然語言處理技術(shù),是本著作內(nèi)容最為豐富的一章,包括整潔數(shù)據(jù)的特征和整潔數(shù)據(jù)包tidyr的使用等。第十章介紹中文自然語言處理技術(shù),包括調(diào)用jiebaR包時如何通過自定義詞典進行分詞、調(diào)用jiebaR包開展基礎(chǔ)統(tǒng)計分析,計算文本長度、句子數(shù)和平均句長以及繪制高頻詞分布條形圖等。第十一章是本書的最后一章,介紹如何對文本詞匯開展詞類標注和句法成分依存分析,包括數(shù)據(jù)包udpipe的安裝與初試、詞語共現(xiàn)和快速自動關(guān)鍵詞提取等。