本書對數(shù)據(jù)科學(xué)領(lǐng)域應(yīng)用廣泛的R軟件包在科學(xué)計(jì)量數(shù)據(jù)分析中的實(shí)踐進(jìn)行了系統(tǒng)性介紹。按照問題、方法、案例的模式,對R中可進(jìn)行科學(xué)計(jì)量數(shù)據(jù)分析和可視化的工具包進(jìn)行了介紹和演示。本書是對CiteSpace、VOSviewer以及BibExcel等科學(xué)計(jì)量和知識圖譜系列圖書的補(bǔ)充。
本書可作為圖書館和情報(bào)學(xué)專業(yè)、醫(yī)學(xué)和生物信息專業(yè)、公共管理專業(yè)、管理科學(xué)與工程(科技管理、信息管理)專業(yè)、教育信息以及數(shù)據(jù)或信息可視化研究方向本科生和研究生的實(shí)踐教材,也可作為相關(guān)領(lǐng)域科研人員日?茖W(xué)研究甚至科技管理和政策分析的工具書。
前言
當(dāng)前,我們處于科學(xué)文獻(xiàn)大數(shù)據(jù)時(shí)代。面對海量的文獻(xiàn)我們?nèi)绾慰焖俚亓私庖粋(gè)研究領(lǐng)域、研究方向或者主題的整體格局以及未來的趨勢?在此背景下,與該問題直接相關(guān)科學(xué)計(jì)量理論、方法和技術(shù)適時(shí)發(fā)展,成為解決上述科研問題的一種有效的途徑。掌握科學(xué)計(jì)量相關(guān)的技術(shù)和方法也成為科研工作者在新時(shí)代進(jìn)行科學(xué)研究活動的基本技能。在過去十余年里,科學(xué)計(jì)量數(shù)據(jù)可視化的理論與方法已經(jīng)大量地滲透到其他學(xué)科的研究實(shí)踐中。在國內(nèi)這種以科學(xué)文本數(shù)據(jù)為研究對象,通過可視化技術(shù)來揭示學(xué)科結(jié)構(gòu)、演進(jìn)和互動的研究領(lǐng)域被統(tǒng)稱為“科學(xué)知識圖譜”。
科學(xué)計(jì)量數(shù)據(jù)可視化背后涉及了大量的科學(xué)計(jì)量學(xué)(還包含文獻(xiàn)計(jì)量學(xué)、網(wǎng)絡(luò)計(jì)量學(xué)以及信息計(jì)量學(xué))方面的基礎(chǔ)理論,比如論文的作者生產(chǎn)率分布、論文的共被引、耦合、主題共現(xiàn)以及作者合作等。還包含了統(tǒng)計(jì)學(xué)和網(wǎng)絡(luò)科學(xué)等方面的技術(shù)和方法,比如多維尺度分析、聚類分析、復(fù)雜網(wǎng)絡(luò)分析、自然語言處理和文本挖掘等分析方法。上面的理論和方法構(gòu)成了進(jìn)行科學(xué)計(jì)量數(shù)據(jù)可視化分析的知識基礎(chǔ),是進(jìn)行知識圖譜分析的前提。在理論和方法的支持下,當(dāng)前國內(nèi)外的相關(guān)學(xué)者已經(jīng)開發(fā)了數(shù)十種進(jìn)行科技文本挖掘方面的軟件或者工具包,這些知名的工具包含了HistCite、BibExcel、CiteSpace、SCI2以及VOSviewer等。這些工具為有意借助領(lǐng)域文獻(xiàn)分析以獲取學(xué)科研究格局和動態(tài)的學(xué)者提供了可能。
筆者在過去5年從事科學(xué)計(jì)量和知識圖譜的實(shí)踐研究中,相繼撰寫了關(guān)于CiteSpace、VOSviewer以及BibExcel等方面的書籍,主要目的在于幫助非科學(xué)計(jì)量學(xué)領(lǐng)域的學(xué)者快速應(yīng)用該方法輔助科學(xué)研究。從2016年開始已經(jīng)相繼組織了4次與科學(xué)計(jì)量和知識圖譜相關(guān)的活動,與來自國內(nèi)的數(shù)百名知識圖譜愛好者有過交流。在交流中,最為常見和令我反思的一個(gè)問題是:“我得到的圖譜結(jié)果應(yīng)該怎樣解釋呢?”我認(rèn)為科學(xué)計(jì)量及知識圖譜的方法僅僅給我們提供了一種認(rèn)識知識世界的新方式,但這種認(rèn)識方式更需要知識圖譜實(shí)踐者結(jié)合自身的專業(yè)背景和知識圖譜的理論與方法去思考。在進(jìn)行科學(xué)計(jì)量和知識圖譜分析的時(shí)候,讀者一定要明確自己要解決的問題是什么?以及為什么知識圖譜能夠解決提出的問題,它與其他方法相比優(yōu)勢在哪里?等等。即科學(xué)計(jì)量和知識圖譜分析之前,一定要確定自己所要研究的問題,然后來選擇要使用何種知識圖譜呈現(xiàn)方式來解決問題。
本書是《CiteSpace:科技文本挖掘及可視化》、《科學(xué)計(jì)量與知識網(wǎng)絡(luò)分析——基于BibExcel等軟件的實(shí)踐》、《科學(xué)知識圖譜原理及應(yīng)用——VOSviewer與CiteNetExplorer初學(xué)者指南》的姊妹篇。與前面這些應(yīng)用程序不同的是,該書詳細(xì)介紹了意大利那不勒斯菲里德里克第二大學(xué)(University of Naples Federico II)經(jīng)濟(jì)與統(tǒng)計(jì)系Massimo Aria和Corrado Cuccurullo基于R語言開發(fā)的BIBLIOMETRIX工具包(Version 1.6和1.7)[1]。該R工具包基本上涵蓋了進(jìn)行科學(xué)計(jì)量和知識可視化的功能(圖0. 1),可以滿足愛好R軟件,并試圖使用R進(jìn)行科學(xué)計(jì)量和知識圖譜分析的讀者。在此基礎(chǔ)上,對于科學(xué)計(jì)量與知識圖譜相關(guān)的一些R工具包,rAltmetric、wordcloud2、gender以及tidytext等工具包進(jìn)行了介紹。本書對使用R進(jìn)行英文全文本挖掘進(jìn)行了很少的介紹,對中文本全文本挖掘還尚未涉及。在今后的更新中將對使用R進(jìn)行全文本挖掘進(jìn)行適當(dāng)?shù)耐晟啤?/p>
圖0. 1 bibliometrix功能概覽
為了便于讀者熟悉bibliometrix工具包,大多數(shù)的案例運(yùn)行采用了工具包自帶的數(shù)據(jù),一些案例專門下載了Web of Science和Scopus數(shù)據(jù)集進(jìn)行分析。呈現(xiàn)可所分析的結(jié)果,但并未就結(jié)果進(jìn)行描述性或者帶有特定研究目的的解讀。通過對這些結(jié)果的學(xué)習(xí),讀者可以自己去思考可以做些什么?或者至少可以通過這種方法了解一下自己所關(guān)注的領(lǐng)域哪些情況?
本書在撰寫中有如下約定:
>后為代碼
#為代碼的說明
## 為代碼運(yùn)行的結(jié)果
感謝Massimo Aria和Corrado Cuccurullo在本書寫作過程中給予的大力幫助,并為本書所撰寫英文序言。感謝首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社楊玲社長在科學(xué)計(jì)量與知識圖譜系列叢書出版中的極大支持,感謝中國科學(xué)院李彬彬博士在提取子矩陣問題上的幫助,感謝滑鐵盧大學(xué)博士后于淼對文稿提出的修改建議,感謝本書的責(zé)任編輯薛曉紅以及研究生李平對本書詳細(xì)校對。
回首自己在科學(xué)計(jì)量和知識圖譜研究與實(shí)踐上的經(jīng)歷,感受五味雜陳。衷心地期望本書及其相關(guān)系列叢書能進(jìn)一步促進(jìn)科學(xué)計(jì)量與知識圖譜實(shí)踐研究在國內(nèi)的發(fā)展和普及,并使每一位讀者受益。
李杰
2017年7月于
李杰,男,管理學(xué)博士。上海海事大學(xué)海洋科學(xué)與工程學(xué)院安全科學(xué)與工程系講師、安全科技趨勢研究中心常務(wù)副主任、科技情報(bào)研究所高級研究員,北京理工大學(xué)博士后(在站),F(xiàn)rontiers in Research Metrics and Analytics編委。
曾在首都經(jīng)濟(jì)貿(mào)易大學(xué)、斯泰恩拜斯大學(xué)(德國)、臺灣省中華大學(xué)、代爾夫特理工大學(xué)(荷蘭)學(xué)習(xí)或研究。研究方向主要集中在安全科學(xué)管理、科學(xué)計(jì)量學(xué)以及應(yīng)用科學(xué)知識圖譜等領(lǐng)域。已發(fā)表論文50余篇,出版著作5部,包括《CiteSpace科技文本挖掘及可視化》《科學(xué)計(jì)量與知識網(wǎng)絡(luò)分析》《安全科學(xué)技術(shù)信息檢索基礎(chǔ)》等。