語(yǔ)義指紋著者姓名消歧理論及應(yīng)用
定 價(jià):68 元
- 作者:韓紅旗 著
- 出版時(shí)間:2018/7/1
- ISBN:9787518945948
- 出 版 社:科學(xué)技術(shù)文獻(xiàn)出版社
- 中圖法分類:G254.9
- 頁(yè)碼:208
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16開(kāi)
《語(yǔ)義指紋著者姓名消歧理論及應(yīng)用》提到的語(yǔ)義指紋是一種信息指紋,它將文獻(xiàn)文本特征表示為固定位數(shù)(如64位或128位)的二進(jìn)制指紋,保留了文本的語(yǔ)義特征且具有很好的降維效果。將語(yǔ)義指紋應(yīng)用到姓名消歧是一種新的嘗試,不僅可以實(shí)現(xiàn)良好的消歧效果,而且可以實(shí)現(xiàn)較高的消歧效率。
《語(yǔ)義指紋著者姓名消歧理論及應(yīng)用》共分7章,第1章對(duì)姓名消歧進(jìn)行了綜述,第2章介紹了姓名消歧的主要方法,第3章介紹了姓名消歧相關(guān)國(guó)內(nèi)外評(píng)測(cè)會(huì)議情況,第4章介紹了研究者標(biāo)識(shí)系統(tǒng),第5章介紹了語(yǔ)義指紋姓名消歧的相關(guān)理論,第6章介紹了基于語(yǔ)義指紋的著者姓名消歧,第7章介紹了基于語(yǔ)義指紋的專利發(fā)明人姓名消歧,第8章進(jìn)行了總結(jié)和展望。
《語(yǔ)義指紋著者姓名消歧理論及應(yīng)用》可以作為姓名消歧、科學(xué)合作網(wǎng)絡(luò)、科技監(jiān)測(cè)等研究的參考書(shū)。
狹義上講,科學(xué)合作網(wǎng)絡(luò)(Scientific Collaboration Network)是指以論文或?qū)@麛?shù)據(jù)中的合著關(guān)系為基礎(chǔ)構(gòu)建的社會(huì)網(wǎng)絡(luò)。論文的作者、專利的發(fā)明人在本書(shū)統(tǒng)一稱為著者或作者。科學(xué)合作網(wǎng)絡(luò)中,節(jié)點(diǎn)是著者,邊是著者之間的合著關(guān)系(Coauthorship)。雖然也有研究國(guó)家或地區(qū)間合作的科學(xué)合作網(wǎng)絡(luò),但本研究限定其為著者合著關(guān)系構(gòu)建的網(wǎng)絡(luò)?茖W(xué)合作網(wǎng)絡(luò)中的合著關(guān)系是一種強(qiáng)社會(huì)關(guān)系,合著者一般認(rèn)識(shí),往往是同一個(gè)機(jī)構(gòu)、同一個(gè)項(xiàng)目、同一個(gè)科研工作中的“同事”,或者通過(guò)其他合著者間接認(rèn)識(shí),所以它在揭示科研工作者的關(guān)系、發(fā)現(xiàn)科研合作社區(qū)、提升學(xué)術(shù)信息檢索質(zhì)量、評(píng)價(jià)科研人員的能力、提供學(xué)術(shù)推薦和科研合作建議、服務(wù)科研論文和項(xiàng)目評(píng)審等方面有著重要的應(yīng)用,從而受到了不少研究人員的關(guān)注。
在對(duì)科學(xué)合作網(wǎng)絡(luò)進(jìn)行研究的過(guò)程中,我們發(fā)現(xiàn)構(gòu)建的科學(xué)合作網(wǎng)絡(luò)由很多不連通的子網(wǎng)絡(luò)構(gòu)成,其中通常存在一個(gè)作者數(shù)量很多的“中心網(wǎng)絡(luò)”和很多作者數(shù)量較少的“邊緣網(wǎng)絡(luò)”。文獻(xiàn)調(diào)研中發(fā)現(xiàn),雖然不少研究者已經(jīng)注意到構(gòu)建的科學(xué)合作網(wǎng)絡(luò)是由很多不連通的子網(wǎng)絡(luò)構(gòu)成的,但并未就其進(jìn)行深入研究?茖W(xué)合作網(wǎng)絡(luò)的不連通問(wèn)題會(huì)在一些實(shí)際應(yīng)用產(chǎn)生錯(cuò)誤的結(jié)果,影響其應(yīng)用效果。為此,本項(xiàng)目擬對(duì)不連通問(wèn)題的原因、不連通問(wèn)題對(duì)實(shí)際應(yīng)用的影響進(jìn)行分析,探索提高科學(xué)合作網(wǎng)絡(luò)連通性的方法;诓贿B通是因?yàn)閿?shù)據(jù)不全面的假設(shè),對(duì)中英雙語(yǔ)言體系下的跨數(shù)據(jù)庫(kù)姓名消歧問(wèn)題進(jìn)行研究,在此基礎(chǔ)上,對(duì)采用關(guān)系擴(kuò)展方法提高科學(xué)合作網(wǎng)絡(luò)連通性的方法進(jìn)行研究;陉P(guān)系擴(kuò)展法成本高、效率低等不足,對(duì)采用鏈接預(yù)測(cè)算法提高科學(xué)合作網(wǎng)絡(luò)連通性的方法進(jìn)行研究。通過(guò)對(duì)科學(xué)合作網(wǎng)絡(luò)不連通問(wèn)題的研究,探索提高連通性的方法,希望為科學(xué)合作網(wǎng)絡(luò)的深入研究和應(yīng)用提供新的理論或方法的指導(dǎo)。
在科學(xué)合作網(wǎng)絡(luò)研究中,著者姓名消歧是普遍認(rèn)可的一個(gè)重要步驟,也是一個(gè)關(guān)鍵步驟。來(lái)源于傳統(tǒng)圖書(shū)館權(quán)威控制(Authority Control)思想的人工消歧固然是一種較為可靠的方法,但該方法效率較低,人為因素可能造成消歧效果充滿不確定性,使其難以滿足文獻(xiàn)數(shù)據(jù)量激增和數(shù)字圖書(shū)館服務(wù)及時(shí)化的需求。因此,采用自動(dòng)化的姓名消歧技術(shù)是一種更為現(xiàn)實(shí)的解決方案,也是當(dāng)前的研究熱點(diǎn)和重點(diǎn)。自動(dòng)姓名消歧技術(shù)是自然語(yǔ)言處理的基本問(wèn)題之一,最初是作為實(shí)體共指現(xiàn)象來(lái)研究的,后來(lái)在一些會(huì)議和評(píng)測(cè)競(jìng)賽的推動(dòng)下,姓名消歧作為一個(gè)單獨(dú)的研究問(wèn)題被提出來(lái)。提出的眾多自動(dòng)化消歧技術(shù)大體上可以落入無(wú)監(jiān)督和有監(jiān)督的機(jī)器學(xué)習(xí)的范疇。雖然很多算法被提出來(lái)以解決這個(gè)問(wèn)題,但迄今為止不少研究者認(rèn)為它依然是學(xué)術(shù)界的一大難題。此外.當(dāng)前的自動(dòng)化處理技術(shù)多研究靜態(tài)數(shù)據(jù)環(huán)境下的姓名消歧,大多需要較大的運(yùn)算量,較少考慮真實(shí)的、動(dòng)態(tài)的數(shù)字圖書(shū)館情景下的消歧。
韓紅旗,中國(guó)科學(xué)技術(shù)信息研究所副研究員,碩士生導(dǎo)師。主要研究領(lǐng)域包括文本挖掘、復(fù)雜網(wǎng)絡(luò)分析、知識(shí)工程、知識(shí)管理等。現(xiàn)已發(fā)表學(xué)術(shù)論文40余篇,參編專業(yè)圖書(shū)7部,申請(qǐng)發(fā)明專利3件、軟件著作權(quán)5件,參加國(guó)家高水平科研項(xiàng)目20余項(xiàng),獲省部級(jí)三等獎(jiǎng)1項(xiàng)。目前主持國(guó)家自然科學(xué)基金面上項(xiàng)目“科學(xué)合作網(wǎng)絡(luò)的不連通問(wèn)題研究”,作為主要參與人參與國(guó)家自然科學(xué)基金項(xiàng)目“面向科技監(jiān)測(cè)的實(shí)體識(shí)別與關(guān)系抽取研究”和“基于論文和專利資源的技術(shù)機(jī)會(huì)發(fā)現(xiàn)研究”的研究。
第1章 姓名消歧綜述
1.1 姓名歧義現(xiàn)象
1.2 姓名歧義帶來(lái)的挑戰(zhàn)
1.3 著者姓名歧義問(wèn)題
1.4 研究意義
1.5 國(guó)內(nèi)外研究現(xiàn)狀
1.5.1 姓名消歧研究的來(lái)源
1.5.2 網(wǎng)頁(yè)人名消歧的研究現(xiàn)狀
1.5.3 著者姓名消歧的研究現(xiàn)狀
1.6 本章小結(jié)
第2章 著者姓名消歧方法分類及研究綜述
2.1 著者姓名消歧方法分類
2.2 人工著者姓名消歧方法
2.3 基于規(guī)則的著者姓名消歧方法
2.3.1 基于規(guī)則和閾值的姓名消歧方法
2.3.2 基于相似度打分表的姓名消歧方法
2.4 基于機(jī)器學(xué)習(xí)的著者姓名消歧方法
2.4.1 基于監(jiān)督學(xué)習(xí)的姓名消歧方法
2.4.2 基于無(wú)監(jiān)督學(xué)習(xí)的姓名消歧方法
2.4.3 基于半監(jiān)督學(xué)習(xí)的姓名消歧方法
2.5 基于語(yǔ)義指紋的著者姓名消歧方法
2.6 基于唯一標(biāo)識(shí)的著者姓名消歧方法
2.7 其他著者姓名消歧方法
2.7.1 基于社會(huì)網(wǎng)絡(luò)的姓名消歧方法
2.7.2 基于網(wǎng)絡(luò)知識(shí)資源的姓名消歧方法
2.8 現(xiàn)有方法對(duì)比分析
2.9 本章小結(jié)
第3章 姓名消歧相關(guān)的評(píng)測(cè)
3.1 WePS網(wǎng)頁(yè)人物搜索評(píng)測(cè)
3.1.1 WePS
3.1.2 WePS
3.1.3 WePS
3.2 PatentsView專利發(fā)明人姓名消歧評(píng)測(cè)
3.2.1 數(shù)據(jù)
3.2.2 評(píng)價(jià)指標(biāo)
3.2.3 競(jìng)賽結(jié)果
3.3 TAGKBP命名實(shí)體消歧評(píng)測(cè)
3.4 中文姓名消歧評(píng)測(cè)
3.4.1 2010年中文人名消歧評(píng)測(cè)
3.4.2 2012年中文人名消歧競(jìng)賽
3.5 本章小結(jié)
第4章 研究者標(biāo)識(shí)系統(tǒng)
4.1 背景
4.2 國(guó)內(nèi)外現(xiàn)狀與本研究實(shí)施技術(shù)路線
4.2.1 國(guó)內(nèi)外現(xiàn)狀
4.2.2 實(shí)施技術(shù)路線
4.3 研究者標(biāo)識(shí)系統(tǒng)案例
4.3.1 ResearchID
4.3.2 ORCID
4.3.3 研究者名稱解析系統(tǒng)
4.4 研究者信息系統(tǒng)整合案例
4.4.1 Researcher.ID與0RCID
4.4.2 研究者名稱解析系統(tǒng)與ORCID
4.5 中國(guó)研究者標(biāo)識(shí)系統(tǒng)的應(yīng)用設(shè)計(jì)
4.5.1 中國(guó)研究者標(biāo)識(shí)系統(tǒng)框架設(shè)計(jì)
4.5.2 中國(guó)研究者標(biāo)識(shí)系統(tǒng)與ORCID整合設(shè)計(jì)
4.5.3 中國(guó)研究者標(biāo)識(shí)系統(tǒng)建設(shè)需要注意的問(wèn)題
4.6 本章小結(jié)
第5章 語(yǔ)義指紋姓名消歧的基礎(chǔ)理論
5.1 信息指紋
5.2 哈希函數(shù)
5.2.1 Rabin哈希函數(shù)
5.2.2 SDBM哈希函數(shù)
5.2.3 MD5哈希函數(shù)
5.2.4 SHA-1哈希函數(shù)
5.2.5 哈希函數(shù)對(duì)比
5.3 語(yǔ)義指紋介紹
5.3.1 語(yǔ)義指紋的概念
5.3.2 語(yǔ)義指紋的研究現(xiàn)狀
5.3.3 語(yǔ)義指紋的應(yīng)用
5.3.4 主要語(yǔ)義指紋算法
5.4 主要文本相似度計(jì)算方法
5.4.1 基于向量空間模型的相似度計(jì)算方法
5.4.2 基于字符串匹配的相似度計(jì)算方法
5.4.3 文本相似度計(jì)算方法比較
5.5 主要聚類算法
5.5.1 K-means聚類
5.5.2 層次聚類
5.5.3 圖聚類
5.5.4 DBSCAN算法
5.5.5 聚類算法對(duì)比
5.6 本章小結(jié)
第6章 基于語(yǔ)義指紋的論文著者姓名消歧
6.1 引言
6.1.1 研究背景
6.1.2 研究意義
6.1.3 主要研究?jī)?nèi)容
6.2 方法
6.2.1 方法的原理
6.2.2 PDF2TXT
6.2.3 指紋生成器
6.2.4 指紋比較器
6.2.5 認(rèn)領(lǐng)決策器
6.2.6 作品指派器
6.2.7 爭(zhēng)議仲裁器
6.3 評(píng)價(jià)指標(biāo)
6.4 實(shí)驗(yàn)結(jié)果
6.4.1 實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建
6.4.2 數(shù)據(jù)預(yù)處理
6.4.3 姓名消歧特征選擇及獨(dú)立特征姓名消歧實(shí)驗(yàn)
6.4.4 基于語(yǔ)義指紋的綜合特征姓名消歧實(shí)驗(yàn)
6.5 本章小結(jié)
6.5.1 技術(shù)內(nèi)涵
6.5.2 可能的應(yīng)用
6.5.3 研究限制
6.5.4 未來(lái)研究方向
第7章 基于語(yǔ)義指紋的專利發(fā)明人姓名消歧
7.1 引言
7.1.1 研究背景
7.1.2 研究意義
7.1.3 主要研究?jī)?nèi)容
7.2 專利發(fā)明人姓名消歧方法
7.2.1 總體架構(gòu)
7.2.2 數(shù)據(jù)獲取
7.2.3 數(shù)據(jù)規(guī)范化
7.2.4 特征提取
7.2.5 語(yǔ)義指紋生成
7.2.6 分塊策略設(shè)計(jì)
7.2.7 參數(shù)估計(jì)
7.2.8 實(shí)驗(yàn)步驟
7.2.9 小結(jié)
7.3 評(píng)價(jià)指標(biāo)
7.4 專利發(fā)明人姓名消歧實(shí)驗(yàn)
7.4.1 數(shù)據(jù)處理
7.4.2 實(shí)驗(yàn)結(jié)果及討論
7.4.3 小結(jié)
7.5 本章小結(jié)
7.5.1 主要研究結(jié)論
7.5.2 研究局限性
7.5.3 未來(lái)研究方向
第8章 總結(jié)及展望
8.1 總結(jié)
8.2 展望
參考文獻(xiàn)