王蘭成編著的《網(wǎng)絡輿情分析技術(精)》以國家社科基金專項課題和全軍專項研究生課題的研究成果為背景,對互聯(lián)網(wǎng)主題輿情分析的理論、方法、技術和實現(xiàn)進行研究。將國內外領先的知識技術運用于網(wǎng)絡輿情的采集和網(wǎng)絡輿情的分析過程,拋磚引玉促進我國在網(wǎng)絡輿情采集、處理和服務方法與技術領域的深入研究,推動軍內外網(wǎng)絡輿情信息系統(tǒng)中新技術的研究和應用創(chuàng)新。在網(wǎng)絡輿情智能采集方面,本書的主要工作是:研究網(wǎng)絡輿情情報規(guī)劃與獲取,研究主題網(wǎng)絡輿情的語義特征抽取,研究輿情網(wǎng)頁內容相關性的判定,研究輿情網(wǎng)頁鏈接相關性的判定等。在網(wǎng)絡輿情智能處理方面,本書的主要工作是:研究主題網(wǎng)絡輿情的本體構建,研究語義層的輿情信息聚類和分類方法,研究基于情感本體的網(wǎng)絡輿情傾向性分析等。在網(wǎng)絡輿情智能服務方面,本書的主要工作是:研究輿情事件網(wǎng)頁內容的詞匯關聯(lián)分析,研究基于網(wǎng)絡論壇的輿情話題追蹤方法和技術,研究網(wǎng)絡輿情檢索系統(tǒng)中的查詢主題分類技術等。
第1章 導論
1.1 互聯(lián)網(wǎng)輿情信息
1.2 網(wǎng)絡輿情采集
1.3 網(wǎng)絡輿情處理
1.4 網(wǎng)絡輿情服務
1.5 內容概覽
第2章 網(wǎng)絡輿情的分析
2.1 網(wǎng)絡輿情的信息采集
2.1.1 網(wǎng)絡輿情的采集方法
2.1.2 搜索引擎的研究進展
2.1.3 網(wǎng)絡信息的分類及其抽取
2.2 輿情話題的搜索技術
2.2.1 話題搜索的基本原理
2.2.2 話題搜索的若干技術
2.2.3 主題爬行的實現(xiàn) 第1章 導論
1.1 互聯(lián)網(wǎng)輿情信息
1.2 網(wǎng)絡輿情采集
1.3 網(wǎng)絡輿情處理
1.4 網(wǎng)絡輿情服務
1.5 內容概覽
第2章 網(wǎng)絡輿情的分析
2.1 網(wǎng)絡輿情的信息采集
2.1.1 網(wǎng)絡輿情的采集方法
2.1.2 搜索引擎的研究進展
2.1.3 網(wǎng)絡信息的分類及其抽取
2.2 輿情話題的搜索技術
2.2.1 話題搜索的基本原理
2.2.2 話題搜索的若干技術
2.2.3 主題爬行的實現(xiàn)
2.2.4 國內外輿情采集的研究成果
2.3 網(wǎng)絡輿情的信息處理
2.3.1 網(wǎng)絡輿情的處理方法
2.3.2 網(wǎng)絡輿情的信息內容分析
2.4 網(wǎng)絡輿情的內容分析與服務
2.4.1 知識技術及其應用
2.4.2 主題輿情內容分析框架
2.4.3 國內外輿情分析的研究成果
2.5 基于社交網(wǎng)絡的輿情傳播動力學性質
2.5.1 輿情演化模型及評析
2.5.2 社交網(wǎng)絡特性與輿情傳播控制策略
2.6 本章小結
第3章 基于主題爬行的網(wǎng)絡輿情信息抽取和整理
3.1 輿情網(wǎng)頁的結構特征與分塊處理
3.1.1 話題標記和頁分塊
3.1.2 基于DOM樹的內容分塊
3.1.3 基于板塊位置的布局分塊
3.1.4 基于視覺特征的結構分塊
3.2 基于主題爬行的輿情網(wǎng)頁分塊
3.2.1 網(wǎng)頁分塊的典型應用
3.2.2 網(wǎng)頁的預處理
3.2.3 網(wǎng)頁分塊的特征提取及其算法
3.2.4 輿情內容塊的整合
3.3 主題網(wǎng)絡輿情的語義特征抽取
3.3.1 網(wǎng)絡輿情語義的特征
3.3.2 基于N—Gram的特征抽取及其改進算法
3.3.3 基于DOM樹分塊的特征項權重計算
3.4 網(wǎng)絡輿情的情報獲取與整合
3.4.1 網(wǎng)絡輿情的情報價值與情報支援
3.4.2 網(wǎng)絡輿情情報支援系統(tǒng)
3.5 本章小結
第4章 輿情網(wǎng)頁與話題相關性的判定分析
4.1 內容相關性的判定方法
4.1.1 元數(shù)據(jù)方法
4.1.2 鏈接標簽數(shù)據(jù)方法
4.1.3 鏈接結構分析方法
4.1.4 頁面語義信息方法
4.2 鏈接相關性的判定方法
4.2.1 鏈接錨文本標記及其信息提取
4.2.2 基于分塊的主題鏈接上下文信息提取
4.2.3 基于鏈接標記和錨文本的主題判定算法
4.2.4 基于語義相似度計算的鏈接判定
4.3 輿情網(wǎng)頁內容相關性的分析
4.3.1 主題特征的選擇
4.3.2 待識別網(wǎng)頁模型的建立
4.3.3 話題文本識別算法的選擇
4.4 輿情網(wǎng)頁鏈接相關性的分析
4.4.1 Web超鏈接的若干分析
4.4.2 基于信息鏈接關系的分析算法
4.4.3 增加主題分析的PageRank改進算法
4.5 本章小結
第5章 基于本體的網(wǎng)絡輿情分析
5.1 本體理論概述
5.1.1 本體概念與分類
5.1.2 面向輿情分析的本體作用
5.1.3 通用本體構建的幾種方法
5.2 基于本體的主題網(wǎng)絡輿情知識模型
5.2.1 輿情的本體知識源
5.2.2 本體的主題輿情構建策略
5.2.3 知識模型中的本體庫架構
5.3 主題網(wǎng)絡輿情SIPO本體的實現(xiàn)方案
5.3.1 本體構建的規(guī)則
5.3.2 SIPO本體的實現(xiàn)步驟
5.3.3 一個輿情事件的本體實例
5.4 本章小結
第6章 基于SIPO的網(wǎng)絡輿情信息聚類和分類
6.1 語義特征抽取轉換
6.1.1 語義轉換及概念特征生成
6.1.2 概念映射匹配算法分析
6.2 網(wǎng)絡輿情信息的聚類與分類
6.2.1 Web文本信息的聚分類
6.2.2 利用SIPO本體的聚分類
6.2.3 SIPO的語義聚分類分析
6.3 基于SIPO本體的語義相似度計算
6.3.1 SIPO概念語義相似度
6.3.2 增加語義特征的文本相似度計算
6.4 基于語義的主題網(wǎng)絡輿情信息聚類
6.4.1 輿情信息聚類流程分析
6.4.2 基于語義相似計算模型的凝聚層次聚類算法
6.5 基于語義的主題網(wǎng)絡輿情信息分類
6.5.1 輿情信息分類流程分析
6.5.2 基于語義相似計算模型的KNN分類算法
6.6 本章小結
第7章 網(wǎng)絡輿情采集與處理的功能實現(xiàn)及其評測
7.1 SIPO原型系統(tǒng)的功能框架
7.2 開發(fā)工具和平臺概述
7.3 輿情采集實驗與結果分析
7.3.1 實驗數(shù)據(jù)選取和測試指標
7.3.2 URL與主題相關性判定算法測試
7.3.3 輿情采集應用分塊方法的效果測試
7.4 輿情信息聚類實驗與結果分析
7.4.1 實驗數(shù)據(jù)選取和測試指標
7.4.2 基于語義的聚類分析實驗方法
7.4.3 實驗結果及分析
7.5 輿情信息分類實驗與結果分析
7.5.1 基于語義的輿情分類實驗方法
7.5.2 實驗結果及分析
第8章 基于情感本體的網(wǎng)絡輿情傾向性分析
8.1 網(wǎng)絡輿情的傾向性分析
8.2 網(wǎng)絡輿情傾向性識別方法及比較
8.2.1 基于文本分類的傾向性識別
8.2.2 基于語義規(guī)則的傾向性識別
8.2.3 基于情感詞的傾向性識別
8.3 情感本體的構建方法
8.3.1 HowNet和領域語料的情感概念選擇
8.3.2 整合多情感概念的情感本體構建
8.3.3 基于H0wNet和領域語料庫的本體話題構建
8.4 基于J隋感本體的主題輿情傾向性分析
8.4.1 特征詞情感傾向度計算
8.4.2 增加程度級別的特征詞權重計算
8.4.3 基于情感本體的傾向性分析過程
8.5 網(wǎng)絡輿情傾向性分析實驗與結果分析
8.5.1 實驗方法
8.5.2 實驗結果及分析
8.6 本章小結
第9章 面向知識挖掘的網(wǎng)絡輿情信息服務
9.1 基于網(wǎng)絡論壇的輿情話題追蹤
9.1.1 話題追蹤的方法與分析
9.1.2 基于文本圖的話題追蹤模型
9.1.3 文本概念圖的生成與關鍵詞識別
9.1.4 語義相關度的計算及追蹤話題的更新
9.1.5 輿情話題追蹤實驗與結果分析
9.2 網(wǎng)絡輿情檢索系統(tǒng)中的查詢主題分類
9.2.1 查詢分類的方法與分析
9.2.2 基于語義知識的查詢分類模型
9.2.3 文檔目錄圖上的查詢詞擴展
9.2.4 目錄圖上的查詢分類識別
9.2.5 查詢主題分類實驗與結果分析
9.3 輿情事件網(wǎng)頁內容的詞匯關聯(lián)分析
9.3.1 基于詞跨度的事件內容關鍵詞獲取
9.3.2 基于共現(xiàn)次數(shù)統(tǒng)計的詞匯關聯(lián)分析
9.3.3 網(wǎng)絡輿情事件的詞匯關聯(lián)實驗與結果分析
9.4 本章小結
參考文獻
后記
1)網(wǎng)頁鏈接預測
網(wǎng)頁中的鏈接是網(wǎng)絡爬蟲持續(xù)工作的前提,然而網(wǎng)頁中既包含了主題相關的鏈接,也包含了大量與主題無關的鏈接,面向主題的網(wǎng)絡爬蟲技術需要對即將要下載的鏈接進行預測,以免下載到與主題無關的網(wǎng)頁。網(wǎng)頁鏈接預測就是判斷當前已經(jīng)下載的網(wǎng)頁中的鏈接所指向的網(wǎng)頁是否與需要的主題相關,這是主題爬行系統(tǒng)的關鍵所在,任何一個主題爬行系統(tǒng)都要求盡可能爬行到和主題相關的網(wǎng)頁,這樣在一定程度上可以避免出現(xiàn)主題漂移現(xiàn)象,也可以以最小的帶寬資源獲得最多的主題相關網(wǎng)頁。近年來,國內外研究者們所做的工作大致歸為兩類:一類是對整個頁面進行綜合評價,但是現(xiàn)在的網(wǎng)頁很多都是多主題的,也就是說在一個網(wǎng)頁內并存幾個主題,或者雖然有個比較主要的主題但是其他主題的內容也很多。面對這樣的網(wǎng)頁,頁面中的每個鏈接被賦予相同的權重,勢必會有大量的不相關的鏈接被提取出來,甚至很可能造成下文所述的“隧道”問題。第二類是基于鏈接的判斷,即網(wǎng)頁中的每一個鏈接依據(jù)它附近的文本賦予不同的權重,有些甚至還考慮了鏈接所在各級標題,但標題的加入有時候反而會使得主題變模糊,基于鏈接的判斷最大的問題是因為所取的信息量偏少,可能有大量的相關鏈接不能夠被提取出來。
網(wǎng)頁分塊技術能把網(wǎng)頁分成不同的內容塊,每一個內容塊賦予不同的權重,超過一定閾值的內容塊可以認為是和主題相關的。與主題相關的內容塊里面的鏈接就假設都是和爬行主題相關的,把這些塊中的鏈接放到爬行池等待下一步爬行,而把那些和主題不相關的塊去掉,不爬行里面的鏈接。這種方法能更好地預測網(wǎng)頁,既避免了針對整個網(wǎng)頁進行評價的粒度過粗,又避免了基于鏈接判斷方法的粒度過細,很大程度上能保證爬行下來的網(wǎng)頁是和主題相關的。
2)多主題和隧道問題
隨著網(wǎng)頁制作技術和網(wǎng)站商業(yè)化進程的推進,當今網(wǎng)頁中的內容和傳統(tǒng)的文本相比有更多的表示形式,網(wǎng)頁中的主題也不再單一。網(wǎng)頁中有用戶需要的主題內容,有與主題內容相關聯(lián)的其他主題鏈接,還有很多信息只是為了方便瀏覽,如導航條、廣告、版權信息等。網(wǎng)頁中包含的多主題對于用戶來說并不是什么問題,因為用戶可以快速地識別出哪些是自己需要的主題信息,哪些是無關緊要的主題信息。然而這種多主題的網(wǎng)頁卻對網(wǎng)絡爬蟲產(chǎn)生了巨大的干擾,讓機器去識別對用戶有用的主題信息則困難較大。在web中還存在著一種現(xiàn)象,就是從當前已經(jīng)得到的頁面到目標網(wǎng)頁有時往往需要經(jīng)過幾個不相關網(wǎng)頁才能夠達到,但是這幾個網(wǎng)頁之間都有著鏈接的聯(lián)系。這些無關的鏈接就像長長的隧道一樣連接著兩個主題相關頁面,因此,這種現(xiàn)象被稱為“隧道現(xiàn)象”。
……