《科研主題演化過程中的詞語遷移研究》結(jié)合數(shù)據(jù)挖掘和機器學習等領(lǐng)域的主題建模和文本挖掘方法,以及情報學領(lǐng)域注重文本內(nèi)容分析的優(yōu)勢,以信息檢索領(lǐng)域的學術(shù)文獻為例,對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進行考察。發(fā)現(xiàn)科研主題的生長趨勢和演化動態(tài),深入分析詞語遷移現(xiàn)象,揭示并驗證關(guān)于詞語遷移的相似性、多樣性和凝聚性規(guī)律。
科研主題演化及主題內(nèi)容分析,是信息科學相關(guān)領(lǐng)域長期關(guān)注的問題。目前數(shù)量龐大的學術(shù)文獻既向科研主題分析提出了挑戰(zhàn),也為學術(shù)文本挖掘工作提供了充足的資源?蒲兄黝}是動態(tài)演化的,在一個科研領(lǐng)域的發(fā)展過程中,新興主題涌現(xiàn),已經(jīng)形成的主題越發(fā)活躍成熟或者逐漸老化衰退,各個主題的研究內(nèi)容不斷變化,單一主題發(fā)生分化,多個主題之間產(chǎn)生融合。理解科研主題的演化過程并對其進行深入的內(nèi)容分析,可以幫助新人領(lǐng)域的研究者了解領(lǐng)域概況,促進領(lǐng)域?qū)<抑g進行領(lǐng)域內(nèi)部和跨領(lǐng)域的知識交流,向科研基金管理機構(gòu)和政策制定者提供科學創(chuàng)新的發(fā)展軌跡,幫助決策者跟進領(lǐng)域知識的流動情況。
鑒于科研主題研究的重要性,以數(shù)據(jù)挖掘領(lǐng)域為代表的各學科均對其投入了很大的關(guān)注,相比之下,情報學領(lǐng)域?qū)τ诳蒲兄黝}演化的研究成果較少,對于演化動態(tài)和演化過程中主題結(jié)構(gòu)變化的分析尤為欠缺。而在數(shù)據(jù)挖掘等計算機科學相關(guān)領(lǐng)域中,由于學科本身技術(shù)導向的特性,對于科研主題演化的考察比較注重演化模型的構(gòu)建和優(yōu)化,研究成果疏于探討主題間的知識交流情況和主題在不同時期的發(fā)展狀態(tài),以及更進一步深入詞語層面的內(nèi)容分析。
目前以情報學和數(shù)據(jù)挖掘領(lǐng)域為代表的信息科學相關(guān)領(lǐng)域?qū)蒲兄黝}演化分析的現(xiàn)狀是,情報學領(lǐng)域缺少成熟的技術(shù)方法對主題結(jié)構(gòu)的動態(tài)演化過程和詞語在主題中的分布變化進行識別和抽取;數(shù)據(jù)挖掘領(lǐng)域由于其技術(shù)導向的特征,缺乏對于科研主題深入的內(nèi)容分析。
基于上述認知,本書結(jié)合數(shù)據(jù)挖掘和機器學習等領(lǐng)域的主題建模和文本挖掘方法,以及情報學領(lǐng)域注重文本內(nèi)容分析的優(yōu)勢,以信息檢索領(lǐng)域的學術(shù)文獻為例,對科研主題的演化過程及演化過程中各主題下詞語的分布及語義變化進行考察。共計七個章節(jié)。
第一章,引言,主要介紹選題背景與研究意義,國內(nèi)外研究現(xiàn)狀,詞語語義和詞語遷移概念的界定,本研究的內(nèi)容、方法及創(chuàng)新之處。
第二章,理論基礎(chǔ),包括科學范式的轉(zhuǎn)變,貝葉斯網(wǎng)絡(luò)和主題建模原理,以及創(chuàng)新擴散理論,為后文進行主題抽取、演化研究和詞語在主題中的分布研究提供理論支撐。
第三章,科研主題的劃分與確定。基于LDA主題模型對科研文獻構(gòu)成的文本數(shù)據(jù)集進行了主題抽取和分析。選取的研究樣本為信息檢索領(lǐng)域的研究論文,數(shù)據(jù)來源為Web of Science數(shù)據(jù)庫,時間檢索跨度為1956-2014年,檢索結(jié)果共計20359條文獻數(shù)據(jù)。共計抽取五個主題,作為信息檢索領(lǐng)域的重要主題進行后續(xù)的演化研究和詞語分析。
第四章,對科研主題的演化過程進行分析,對信息檢索領(lǐng)域五個重要主題的生長趨勢和演化動態(tài)進行識別和考察。在生長趨勢分析中,對LDA主題模型訓練結(jié)果中的文檔一主題概率分布按年分組進行聚合,從而得到每一年每個主題下的內(nèi)容占當年文獻總內(nèi)容的比例,以表示各主題在對應(yīng)年份的活躍程度。針對目前研究對主題活躍度的測量仍停留在對發(fā)表文獻進行簡單計數(shù)的基礎(chǔ)上,本章的生長趨勢分析結(jié)果較好地保留了一篇文檔以不同比例包含多個主題的特性。在演化動態(tài)分析中,針對目前主題演化研究對主題分化融合、知識交流和不同時期的發(fā)展階段分析的不足,對應(yīng)上述三點展開了研究。整體語料被劃分為六個時間窗口,每個時間窗口另外抽取存在于該時間段內(nèi)的局域主題,第三章抽取的五個主題稱為全局主題。
陳柏彤,博士,上海大學講師,畢業(yè)于武漢大學信息管理學院情報學專業(yè),主要研究方向為數(shù)據(jù)驅(qū)動知識發(fā)現(xiàn)。
第一章 引言
第一節(jié) 選題背景與研究意義
一 選題背景
二 研究意義
第二節(jié) 國內(nèi)外研究現(xiàn)狀分析
一 基于主題模型的主題發(fā)現(xiàn)與主題演化研究
二 科研主題的生長趨勢
三 基于知識圖譜的科研主題演化研究
四 詞語遷移相關(guān)研究
五 存在問題述評
第三節(jié) 詞語語義和詞語遷移概念的界定
一 詞語語義概念界定
二 詞語遷移概念界定
第四節(jié) 研究內(nèi)容和研究方法
一 研究內(nèi)容
二 研究方法
第五節(jié) 創(chuàng)新之處
第二章 理論基礎(chǔ)
第一節(jié) 科學哲學與科學范式的轉(zhuǎn)變
一 科學哲學對范式的定義
二 科學范式的轉(zhuǎn)變
三 科學范式轉(zhuǎn)變與科研主題演化的關(guān)系
第二節(jié) 貝葉斯概率與貝葉斯網(wǎng)絡(luò)
一 貝葉斯概率
二 貝葉斯網(wǎng)絡(luò)
第三節(jié) 主題模型概述
一 文本集合建模
二 PLSI模型
三 LDA模型
第四節(jié) 創(chuàng)新擴散理論
一 創(chuàng)新擴散理論概述
二 創(chuàng)新擴散理論的繼承與發(fā)展
第三章 科研主題的劃分與確定
第一節(jié) 數(shù)據(jù)獲取與預(yù)處理
一 數(shù)據(jù)獲取
二 數(shù)據(jù)預(yù)處理
第二節(jié) 文檔建模與參數(shù)設(shè)定
一 模型輸入
二 模型運算
三 模型輸出
第三節(jié) 結(jié)果分析
第四節(jié) 本章小結(jié)
第四章 科研主題的演化過程
第一節(jié) 科研主題的生長趨勢
一 歷時主題活躍度探測
二 生長趨勢分析
……
第五章 科研主題演化過程中的詞語遷移現(xiàn)象
第六章 科研主題演化過程中的詞語遷移規(guī)律
第七章 總結(jié)與展望
參考文獻
索引