開(kāi)放協(xié)同的科技大數(shù)據(jù)匯聚融合與演化分析
定 價(jià):158 元
叢書(shū)名:科技大數(shù)據(jù)理論與技術(shù)叢書(shū)
- 作者:陳浩等著
- 出版時(shí)間:2022/6/1
- ISBN:9787030713902
- 出 版 社:科學(xué)出版社
- 中圖法分類(lèi):G203
- 頁(yè)碼:255
- 紙張:膠版紙
- 版次:1
- 開(kāi)本:16開(kāi)
本書(shū)針對(duì)現(xiàn)有科技大數(shù)據(jù)存在眾多數(shù)據(jù)來(lái)源、數(shù)據(jù)異構(gòu)、數(shù)據(jù)質(zhì)量不均衡等問(wèn)題, 解決多源異構(gòu)科技大數(shù)據(jù)的數(shù)據(jù)采集、清洗、融合、存儲(chǔ)等問(wèn)題, 構(gòu)建科技大數(shù)據(jù)高效匯聚融合、智能演化分析、以及個(gè)性化檢索服務(wù)平臺(tái)。主要內(nèi)容包括多源異構(gòu)科技大數(shù)據(jù)采集機(jī)制、科技大數(shù)據(jù)匯聚融合機(jī)制、科技大數(shù)據(jù)分布式存儲(chǔ)關(guān)鍵技術(shù)、面向開(kāi)放協(xié)同的科技大數(shù)據(jù)檢索服務(wù)接口、科技大數(shù)據(jù)交換與可信確權(quán)、科技大數(shù)據(jù)交互式演化分析、面向領(lǐng)域的科技大數(shù)據(jù)智能服務(wù)應(yīng)用。
更多科學(xué)出版社服務(wù),請(qǐng)掃碼獲取。
目錄
第1章 緒論 1
1.1 研究背景及意義 1
1.2 國(guó)內(nèi)外研究現(xiàn)狀 3
1.3 研究目標(biāo)和內(nèi)容 8
1.4 研究創(chuàng)新和預(yù)期效益 10
第2章 多源異構(gòu)科技大數(shù)據(jù)資源體系建設(shè)與應(yīng)用場(chǎng)景 12
2.1 科技大數(shù)據(jù)的概念定義 12
2.2 科技大數(shù)據(jù)模型框架設(shè)計(jì) 14
2.3 科技大數(shù)據(jù)資源體系建設(shè) 17
2.4 科技大數(shù)據(jù)服務(wù)體系建設(shè) 32
2.5 本章小結(jié) 36
第3章 多源異構(gòu)科技大數(shù)據(jù)分布式存儲(chǔ)關(guān)鍵技術(shù) 37
3.1 面向大數(shù)據(jù)分析的分布式文件系統(tǒng)關(guān)鍵技術(shù) 37
3.2 分布式計(jì)算環(huán)境下科技大數(shù)據(jù)協(xié)同存儲(chǔ)機(jī)制 39
3.3 基于分布式計(jì)算的科技大數(shù)據(jù)可擴(kuò)展存儲(chǔ)機(jī)制 43
3.4 異構(gòu)科技數(shù)據(jù)安全可信交換模型 48
3.5 延遲感知的科技數(shù)據(jù)自適應(yīng)副本管理機(jī)制 51
3.6 本章小結(jié) 53
第4章 科技大數(shù)據(jù)匯聚融合與演化分析系統(tǒng)架構(gòu) 54
4.1 科技大數(shù)據(jù)匯聚融合需求分析 54
4.2 系統(tǒng)設(shè)計(jì) 57
4.3 功能模塊詳細(xì)設(shè)計(jì) 62
4.4 系統(tǒng)技術(shù)架構(gòu)設(shè)計(jì) 71
4.5 本章小結(jié) 75
第5章 科技大數(shù)據(jù)匯聚融合機(jī)制 76
5.1 多源異構(gòu)科技數(shù)據(jù)源語(yǔ)義映射機(jī)制 76
5.2 基于領(lǐng)域知識(shí)的科技大數(shù)據(jù)采集規(guī)則 79
5.3 基于粗糙集理論的科技大數(shù)據(jù)清洗方法 81
5.4 面向開(kāi)放協(xié)同的多源異構(gòu)科技大數(shù)據(jù)特征融合 88
5.5 本章小結(jié) 97
第6章 科技大數(shù)據(jù)實(shí)體智能匹配與查詢(xún) 98
6.1 科技大數(shù)據(jù)高性能索引關(guān)鍵技術(shù) 98
6.2 科技大數(shù)據(jù)模糊查詢(xún)匹配的高效采樣方法 102
6.3 面向科技大數(shù)據(jù)分析的過(guò)濾規(guī)則建模方法 111
6.4 科技大數(shù)據(jù)分析方法推薦技術(shù) 120
6.5 本章小結(jié) 125
第7章 面向開(kāi)放協(xié)同的科技大數(shù)據(jù)檢索服務(wù)接口 126
7.1 科技大數(shù)據(jù)元數(shù)據(jù) 126
7.2 科技大數(shù)據(jù)檢索接口標(biāo)準(zhǔn)制定 130
7.3 科技大數(shù)據(jù)檢索服務(wù)接口 133
7.4 科技大數(shù)據(jù)檢索與管理 159
7.5 本章小結(jié) 163
第8章 科技大數(shù)據(jù)追蹤保護(hù)與演化分析 164
8.1 基于混合選舉的委員會(huì)共識(shí)機(jī)制 164
8.2 基于多級(jí)社區(qū)的區(qū)塊鏈共識(shí)機(jī)制 170
8.3 基于區(qū)塊鏈的科技大數(shù)據(jù)交換 176
8.4 基于區(qū)塊鏈的科技大數(shù)據(jù)可信確權(quán) 187
8.5 基于區(qū)塊鏈的科技大數(shù)據(jù)追蹤保護(hù) 191
8.6 本章小結(jié) 201
參考文獻(xiàn) 202
第1章 緒論
1.1 研究背景及意義
1.1.1 研究背景
隨著新興技術(shù)的不斷突破,不管是區(qū)塊鏈還是AI(artificial intelligence,人工智能),抑或是大數(shù)據(jù),當(dāng)前正處于科技和產(chǎn)業(yè)變革的關(guān)鍵節(jié)點(diǎn)。隨著技術(shù)的進(jìn)步和社會(huì)需求的改變,每一天、每一小時(shí)甚至每一秒都在不斷產(chǎn)生海量支撐AI發(fā)展的科技數(shù)據(jù)。盡管數(shù)據(jù)龐雜,但其中記載著詳細(xì)學(xué)科知識(shí)、相關(guān)真理及驗(yàn)證過(guò)程、某學(xué)科的實(shí)驗(yàn)過(guò)程和結(jié)論等,這些對(duì)推動(dòng)技術(shù)發(fā)展起到關(guān)鍵作用的核心科技情報(bào)知識(shí)線(xiàn)索,是現(xiàn)代各尖端領(lǐng)域用于科技創(chuàng)新發(fā)現(xiàn)的算法模型實(shí)現(xiàn)的核心數(shù)據(jù)根基和重要知識(shí)基礎(chǔ)[1]。
在數(shù)據(jù)快速增長(zhǎng)的信息爆炸時(shí)代,亟待解決的問(wèn)題就是對(duì)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量的甄別及分析。解決信息孤島和數(shù)據(jù)疏散等問(wèn)題,沖破現(xiàn)行的各類(lèi)行政壁壘,推進(jìn)科技資本的合理布局、統(tǒng)籌規(guī)劃及整合,從而滿(mǎn)足同享同用的需求;解決數(shù)據(jù)時(shí)效性差、多頭來(lái)源,數(shù)據(jù)指標(biāo)不統(tǒng)一、口徑不一致的問(wèn)題,從而實(shí)現(xiàn)資源規(guī)范標(biāo)準(zhǔn)、利用快捷高效;解決數(shù)據(jù)開(kāi)發(fā)潛力不足的難題,從而實(shí)現(xiàn)多形式展示、深層次挖掘、定制式推送、個(gè)性化服務(wù)等。對(duì)復(fù)雜構(gòu)成的科技大數(shù)據(jù)進(jìn)行基于語(yǔ)義的計(jì)算分析,已經(jīng)成為Google、Microsoft等企業(yè)搶占未來(lái)大數(shù)據(jù)AI服務(wù)的重要部署[2]。
一系列文件指出,應(yīng)該建立健全鼓勵(lì)原始創(chuàng)新、集成創(chuàng)新、引進(jìn)消化吸收再創(chuàng)新的體制機(jī)制,健全技術(shù)創(chuàng)新市場(chǎng)導(dǎo)向機(jī)制,建立產(chǎn)學(xué)研協(xié)同創(chuàng)新機(jī)制,加強(qiáng)知識(shí)產(chǎn)權(quán)運(yùn)用和保護(hù),健全技術(shù)創(chuàng)新激勵(lì)機(jī)制,整合科技規(guī)劃和資源,完善政府對(duì)基礎(chǔ)性、戰(zhàn)略性、前沿性科學(xué)研究和共性技術(shù)研究的支持機(jī)制[3, 4]。我國(guó)現(xiàn)階段在科技平臺(tái)建設(shè)方面,不管是模式、內(nèi)容還是機(jī)制都面臨著巨大的挑戰(zhàn),而矢志不渝地進(jìn)行科技平臺(tái)建設(shè)是推動(dòng)知識(shí)服務(wù)的供給側(cè)結(jié)構(gòu)性改革的重要部分。
盡管我國(guó)于2003年全面啟動(dòng)國(guó)家科技基礎(chǔ)條件平臺(tái)建設(shè),并產(chǎn)出了很多重要的成果,但目前仍存在不少亟待突破的問(wèn)題,如平臺(tái)信息滯后、各平臺(tái)間聯(lián)結(jié)度與信息共享度低,無(wú)法滿(mǎn)足客戶(hù)動(dòng)態(tài)需求等,解決這些問(wèn)題將會(huì)使我國(guó)的科技平臺(tái)建設(shè)飛躍到一個(gè)新的高度。開(kāi)放共享經(jīng)濟(jì)環(huán)境下,借助云技術(shù)的精準(zhǔn)定位與信息挖掘,探索科技大數(shù)據(jù)服務(wù)平臺(tái)的功能與運(yùn)作,有利于實(shí)時(shí)追蹤技術(shù)交易,提供個(gè)性化信息推送、專(zhuān)利技術(shù)需求智能關(guān)聯(lián)等服務(wù),進(jìn)而促進(jìn)科技向生產(chǎn)力的快速轉(zhuǎn)化。
數(shù)據(jù)作為目前最有價(jià)值、最重要的資本之一,得到了研究人員的廣泛關(guān)注。企業(yè)管理者能否做出正確決策與其承載數(shù)據(jù)量的大小有關(guān),所以,對(duì)歷史數(shù)據(jù)的采集和處理一直都是研究人員關(guān)注的重點(diǎn)內(nèi)容,大型企業(yè)、中小型企業(yè)及政府部門(mén)都在對(duì)構(gòu)建大數(shù)據(jù)平臺(tái)進(jìn)行探索、整合各部門(mén)數(shù)據(jù),進(jìn)而形成關(guān)聯(lián),最終將其有效用于決策支持。大數(shù)據(jù)有別于常見(jiàn)的數(shù)據(jù),通常使用一些常規(guī)軟件就可以實(shí)現(xiàn)常見(jiàn)的數(shù)據(jù)的抓取、分析和處理等操作,但大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)價(jià)值密度相對(duì)較低、數(shù)據(jù)類(lèi)型多、處理速度快、時(shí)效性要求高等特征,人們無(wú)法使用常規(guī)處理數(shù)據(jù)的方式去處理大數(shù)據(jù)。而針對(duì)大數(shù)據(jù)的分析與處理,往往不是使用隨機(jī)分析、抽樣調(diào)查等方法對(duì)局部數(shù)據(jù)進(jìn)行操作,而是對(duì)所有數(shù)據(jù)進(jìn)行分析,從而得到數(shù)據(jù)整體的分析結(jié)果與處理方案。這就要求在大數(shù)據(jù)處理過(guò)程中,采用技術(shù)上具有可操作性、便捷高效的處理模式。因此,對(duì)大數(shù)據(jù)進(jìn)行分析處理,要求具備從大量數(shù)據(jù)中抽絲剝繭地提取出有效的數(shù)據(jù)信息,對(duì)大批量數(shù)據(jù)從不同維度同時(shí)進(jìn)行分析處理,并快速得到目標(biāo)數(shù)據(jù)集的能力。
大數(shù)據(jù)涉及很多領(lǐng)域,其中具備科技及知識(shí)屬性的大數(shù)據(jù)資源,被認(rèn)為是科技大數(shù)據(jù)?萍即髷(shù)據(jù)依托于信息技術(shù)的高速發(fā)展,加速了與經(jīng)濟(jì)社會(huì)的交匯融合,科技大數(shù)據(jù)因?qū)ι鐣?huì)生產(chǎn)、物流、消費(fèi)等日常活動(dòng)及經(jīng)濟(jì)運(yùn)行機(jī)制、社會(huì)生活方式和國(guó)家治理能力產(chǎn)生越來(lái)越大的影響而成為國(guó)家基礎(chǔ)性戰(zhàn)略資源,所以構(gòu)建針對(duì)大數(shù)據(jù)的工具,從而合理、高效地使用科技知識(shí)領(lǐng)域的大數(shù)據(jù)資源,就十分具有戰(zhàn)略意義。
科技大數(shù)據(jù)有別于傳統(tǒng)的數(shù)據(jù)資源領(lǐng)域,也并不是常見(jiàn)的網(wǎng)絡(luò)及行業(yè)大數(shù)據(jù)?萍即髷(shù)據(jù)主要是指包括科技成果數(shù)據(jù)、科技活動(dòng)數(shù)據(jù)及互聯(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)在內(nèi)的數(shù)據(jù)內(nèi)容。其中,科技成果數(shù)據(jù)是指各學(xué)科內(nèi)記錄形成的數(shù)據(jù)、資料、文獻(xiàn)、報(bào)告、網(wǎng)絡(luò)科技報(bào)道等承載知識(shí)的數(shù)據(jù)。科技活動(dòng)數(shù)據(jù)包括兩類(lèi),一類(lèi)是科技實(shí)體數(shù)據(jù),科技實(shí)體數(shù)據(jù)包括科技項(xiàng)目、學(xué)術(shù)會(huì)議、科技團(tuán)隊(duì)、科技組織、科技人才、科技機(jī)構(gòu)、科技獎(jiǎng)項(xiàng)、科技主題、科技概念、研究設(shè)備、研究模型、研究方法等;另一類(lèi)就是知識(shí)關(guān)系數(shù)據(jù),知識(shí)關(guān)系數(shù)據(jù)包括語(yǔ)義關(guān)系及計(jì)量關(guān)系等。互聯(lián)網(wǎng)自媒體科技資訊數(shù)據(jù)是指常見(jiàn)自媒體產(chǎn)生的數(shù)據(jù),如微信數(shù)據(jù)或微博數(shù)據(jù),其特征是及時(shí)、權(quán)威、互動(dòng)性較好。
科技大數(shù)據(jù)理論與技術(shù)研究是一項(xiàng)順應(yīng)目前科技行業(yè)信息化技術(shù)水平發(fā)展、服務(wù)政府職能改革的科學(xué)研究工作,主要目標(biāo)是強(qiáng)化科技與經(jīng)濟(jì)運(yùn)行監(jiān)測(cè)分析,并將分析結(jié)果提供給科技管理者、科研機(jī)構(gòu)、企業(yè)和個(gè)人,從而有效推動(dòng)科技創(chuàng)新的一站式的云管理和服務(wù)平臺(tái)建設(shè),推進(jìn)科技數(shù)據(jù)共享和業(yè)務(wù)協(xié)同,以信息化提升數(shù)據(jù)化管理與服務(wù)能力,準(zhǔn)確掌握科技發(fā)展在宏觀和微觀等多種維度的動(dòng)態(tài),及時(shí)并快速地響應(yīng)科技政策的更新,并為其制定提供依據(jù)。
1.1.2 研究意義
本書(shū)針對(duì)科技服務(wù)對(duì)科技資源數(shù)據(jù)匯聚融合的需求,研究多源科技大數(shù)據(jù)資源融合的云計(jì)算系統(tǒng)平臺(tái)分布式管理方法,形成協(xié)調(diào)統(tǒng)一的科技大數(shù)據(jù)分布式存儲(chǔ)與處理模式。本書(shū)基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型和特征表示學(xué)習(xí)的科技大數(shù)據(jù)融合處理方法,實(shí)現(xiàn)跨領(lǐng)域跨學(xué)科的科技大數(shù)據(jù)自動(dòng)監(jiān)測(cè)與采集。利用在線(xiàn)知識(shí)圖譜中所蘊(yùn)含的豐富結(jié)構(gòu)化文本與鏈接信息,建立多源異構(gòu)、碎片化數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)和多粒度層次之間的語(yǔ)義映射,完成科技大數(shù)據(jù)的實(shí)體識(shí)別和匹配;設(shè)計(jì)以多粒度知識(shí)服務(wù)為核心的大數(shù)據(jù)處理架構(gòu)與引擎,實(shí)現(xiàn)從元數(shù)據(jù)記錄層、知識(shí)實(shí)體層以及知識(shí)關(guān)系層的智能數(shù)據(jù)融合與演化分析;研究跨平臺(tái)跨系統(tǒng)跨業(yè)務(wù)跨場(chǎng)景的大數(shù)據(jù)共享交換機(jī)制技術(shù),構(gòu)建支持?jǐn)?shù)據(jù)交換、可信確權(quán)與追蹤保護(hù)的科技大數(shù)據(jù)資源融合系統(tǒng)平臺(tái),實(shí)現(xiàn)科技大數(shù)據(jù)的生命周期管理,以期在跨媒體跨領(lǐng)域科技大數(shù)據(jù)的實(shí)體識(shí)別、匯聚融合與演化分析等一系列關(guān)鍵技術(shù)上取得進(jìn)展。
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 多源異構(gòu)數(shù)據(jù)融合研究現(xiàn)狀
多源異構(gòu)大數(shù)據(jù)融合的研究開(kāi)始于美國(guó),早在20世紀(jì)中期,美國(guó)軍隊(duì)就已經(jīng)可以對(duì)多源傳感器所獲得的相關(guān)信息進(jìn)行多源數(shù)據(jù)融合,進(jìn)一步提高了決策的精確度。數(shù)據(jù)融合是一個(gè)針對(duì)多源異構(gòu)數(shù)據(jù)信息的加工過(guò)程,該過(guò)程還包括自動(dòng)化檢測(cè)、相關(guān)互聯(lián)以及多級(jí)組合等[5, 6]。Greif在1998年將數(shù)據(jù)融合技術(shù)定義成一種通過(guò)融合算法以及相關(guān)工具方式對(duì)多源異構(gòu)數(shù)據(jù)信息進(jìn)行關(guān)聯(lián)分析的形式框架[7]。該框架的意義不僅在于可以獲得更加多源優(yōu)質(zhì)的數(shù)據(jù)信息資源,還在于可以有效改善決策的魯棒性以及可靠性。在應(yīng)用領(lǐng)域上,數(shù)據(jù)融合在工業(yè)控制領(lǐng)域、醫(yī)療識(shí)別領(lǐng)域、天氣預(yù)測(cè)領(lǐng)域等相關(guān)領(lǐng)域有所應(yīng)用,并逐漸向更多更廣的交叉領(lǐng)域擴(kuò)展。
為解決多源異構(gòu)數(shù)據(jù)中存在的諸多問(wèn)題,有一些研究成果通過(guò)給多源異構(gòu)數(shù)據(jù)添加相應(yīng)的規(guī)則,實(shí)現(xiàn)多源數(shù)據(jù)的融合。例如,“線(xiàn)性加權(quán)融合”運(yùn)算、“最大值”運(yùn)算、“最小值”運(yùn)算、“求和”運(yùn)算、“求或”運(yùn)算以及“投票機(jī)制”。相關(guān)核心工作成果有如下幾個(gè)。文獻(xiàn)[8]通過(guò) 正則化項(xiàng)與鉸鏈損失函數(shù)相結(jié)合對(duì)多模態(tài)數(shù)據(jù)進(jìn)行特征選擇,利用 正則化項(xiàng)引入不同的和函數(shù)學(xué)習(xí)不同來(lái)源數(shù)據(jù)中的互補(bǔ)信息。文獻(xiàn)[9]提出了一種聯(lián)合判別特征融合框架,該框架通過(guò)約束函數(shù),最大化樣本間的距離和最小化樣本內(nèi)的距離,實(shí)現(xiàn)特征融合。文獻(xiàn)[10]提出了一種判別分析方法,主要通過(guò)學(xué)習(xí)多源異構(gòu)數(shù)據(jù)之間、數(shù)據(jù)對(duì)之間的線(xiàn)性變化,引入約束條件加強(qiáng)多個(gè)線(xiàn)性變換視圖的一致性。文獻(xiàn)[11]利用線(xiàn)性組合技術(shù)對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行特征融合,從得到的融合特征中篩選出貢獻(xiàn)率最大的特征,利用遺傳算法進(jìn)行特征加權(quán)。文獻(xiàn)[12]提出了一種新的特征提取方法,即正態(tài)分布的貝葉斯誤差和貝葉斯相結(jié)合的方法,能夠?qū)崿F(xiàn)特征融合和特征選擇。文獻(xiàn)[13]提出了一種基于相位一致性和能量加權(quán)的融合方法,通過(guò)NSCT(non subsampled contourlet transform,非下采樣輪廓波變換)濾波獲得不同模態(tài)數(shù)據(jù)中不同頻率的特征,其中高頻特征通過(guò)相位一致性規(guī)則進(jìn)行融合,低頻特征通過(guò)能量加權(quán)進(jìn)行融合。有的學(xué)者利用深度多項(xiàng)式網(wǎng)絡(luò)[14]給多源異構(gòu)數(shù)據(jù)添加線(xiàn)性約束,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的融合。還有學(xué)者提出了一種新的深度學(xué)習(xí)結(jié)構(gòu)[15],通過(guò)不斷加權(quán)特征信息來(lái)實(shí)現(xiàn)特征融合。
除了基于規(guī)則的方法之外,還可以通過(guò)表征學(xué)習(xí)的方法,將多源異構(gòu)數(shù)據(jù)投影到一個(gè)公共的子空間中。代表性工作有如下幾個(gè)。文獻(xiàn)[16]通過(guò)對(duì)多項(xiàng)式網(wǎng)絡(luò)進(jìn)行疊加完成數(shù)據(jù)的融合:第一層多項(xiàng)式網(wǎng)絡(luò)提取多源異構(gòu)數(shù)據(jù)的高層語(yǔ)義特征,第二層多項(xiàng)式用于學(xué)習(xí)多源異構(gòu)數(shù)據(jù)間的相互聯(lián)系。文獻(xiàn)[17]提出在統(tǒng)一的框架下識(shí)別和選擇出各個(gè)模態(tài)中有用的特征,通過(guò)子空間學(xué)習(xí)的方法學(xué)習(xí)數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特征。這是一種特征選擇和子空間學(xué)習(xí)相結(jié)合的方法。文獻(xiàn)[18]提出了一種新的多類(lèi)型診斷框架,該框架由自動(dòng)編碼器和softmax層組成,通過(guò)自動(dòng)編碼器網(wǎng)絡(luò)學(xué)習(xí)多源異構(gòu)數(shù)據(jù)空間共享表示。Huddar等在雙向LSTM(long-short term memory,長(zhǎng)短期記憶)神經(jīng)網(wǎng)絡(luò)中加入多個(gè)注意力機(jī)制,對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行多次融合得到融合信息[19]。一部分學(xué)者利用深度學(xué)習(xí)在高維空間中表示多源異構(gòu)數(shù)據(jù)之間的關(guān)系,獲得多源異構(gòu)數(shù)據(jù)的在高維空間中的融合表示,完成分類(lèi)任務(wù)[20, 21]。還有一部分學(xué)者通過(guò)稀疏表示將多源異構(gòu)數(shù)據(jù)映射到統(tǒng)一表示空間[22, 23]。另外有研究者提出了一種基于聯(lián)合訓(xùn)練框架的方法,并證明了該方法的成功性和適用性[24, 25]。最近,有研究者提出了一種基于典型相關(guān)分析的共享隱空間學(xué)習(xí)方法[26],也存在一些表征學(xué)習(xí)的框架旨在充分利用多模態(tài)不完全異構(gòu)數(shù)據(jù)[27, 28]。
雖然我國(guó)很重視這方面的發(fā)展,但與國(guó)際水平相比還有一些差距,為了縮小數(shù)據(jù)融合在運(yùn)算精度以及速度方面的差距,還需要再接再厲,促進(jìn)科技發(fā)展與進(jìn)步。
1.2.2 科技大數(shù)據(jù)知識(shí)圖譜的應(yīng)用
知識(shí)圖譜(knowledge graph)[29]的主要目的是針對(duì)其搜索引擎,通過(guò)分析描述真實(shí)世界中存在的各種實(shí)體以及概念,找到并以圖的形式描述這些實(shí)體、概念之間的關(guān)聯(lián)關(guān)系,從而改善搜索結(jié)果,將知識(shí)系統(tǒng)化地呈現(xiàn)給用戶(hù),提高用戶(hù)目標(biāo)搜索結(jié)果的命中率。
知識(shí)圖譜可以顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,利用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。應(yīng)用知識(shí)圖譜時(shí),通常是將應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法和計(jì)量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,并利用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識(shí)架構(gòu),達(dá)到多學(xué)科融合目的;谏鲜鲈,知識(shí)圖譜適用于科技大數(shù)據(jù)的分析研究,其可以實(shí)現(xiàn)對(duì)知識(shí)持續(xù)增量的自動(dòng)獲取,具備概念識(shí)別、實(shí)體發(fā)現(xiàn)、屬性預(yù)測(cè)、知識(shí)演化建模和關(guān)系挖掘能力,可以形成涵蓋數(shù)十億實(shí)體規(guī)模的多源、多學(xué)科和多數(shù)據(jù)類(lèi)型的跨媒體知識(shí)圖譜[30]。劉嶠等指出科技大數(shù)據(jù)與傳統(tǒng)的數(shù)據(jù)信息有很大區(qū)別,主要原因在于科技大數(shù)據(jù)內(nèi)容包括各學(xué)科內(nèi)的記錄數(shù)據(jù)、資料、文獻(xiàn)、報(bào)告、網(wǎng)絡(luò)科技報(bào)道等科技成果數(shù)據(jù),除以上成果類(lèi)內(nèi)容之外,還常常包含科技領(lǐng)域中涉及的項(xiàng)目、學(xué)術(shù)會(huì)議、人才、機(jī)構(gòu)、獎(jiǎng)項(xiàng)、主題、概念等特色數(shù)據(jù),以及研究領(lǐng)域相關(guān)的設(shè)備、模型、方法等實(shí)體及其語(yǔ)義關(guān)系的活動(dòng)數(shù)據(jù)[31]。
知識(shí)圖譜被廣泛用于語(yǔ)義搜索,即用戶(hù)搜索次數(shù)越多,范圍越廣,搜索引擎越能獲得更多的信息和內(nèi)容;知識(shí)圖譜被廣泛用于智能問(wèn)答,運(yùn)用知識(shí)圖譜可以融合所有學(xué)科,以保證用戶(hù)搜索時(shí)具有連貫性,從而實(shí)現(xiàn)智能問(wèn)答;知識(shí)圖譜被廣泛用于數(shù)據(jù)挖掘,運(yùn)用知識(shí)圖譜可以從整個(gè)互聯(lián)網(wǎng)汲取有用的信息讓用戶(hù)獲得更多相關(guān)的數(shù)據(jù)資源;知識(shí)圖譜被廣泛應(yīng)用于推薦系統(tǒng),知識(shí)圖譜可以綜合用戶(hù)特征,把與關(guān)鍵字相關(guān)的知識(shí)化體系系統(tǒng)化地展示給用戶(hù)。
在數(shù)字圖書(shū)館領(lǐng)域,一些大型出版商也已開(kāi)始以科技文獻(xiàn)數(shù)據(jù)為基礎(chǔ)構(gòu)建知識(shí)圖譜。