2015年11月,《中共中央關(guān)于制定國民經(jīng)濟和社會發(fā)展第十三個五年規(guī)劃的建議》發(fā)布,繼續(xù)強調(diào)了國家文化事業(yè)發(fā)展的重要戰(zhàn)略意義,指出:“十三五”期間要繼續(xù)展開文化體制改革,建設(shè)重大文化工程,完善公共文化的產(chǎn)業(yè)、市場和服務(wù)體系發(fā)展。而圖書館作為文化傳播和保障公民文化需求的重鎮(zhèn),應(yīng)繼續(xù)發(fā)揮其優(yōu)勢,并不斷發(fā)展和變革,為廣大人民群眾提供更優(yōu)質(zhì)的服務(wù)。
進入互聯(lián)網(wǎng)時代,圖書館資源由傳統(tǒng)的實體走向數(shù)字化和網(wǎng)絡(luò)化,用戶對信息的需求也由原來的信息查找轉(zhuǎn)向?qū)χR的獲取與個性化服務(wù)。歷年來,各地、各級單位圖書館的建設(shè)通過不斷擴大其規(guī)模來滿足讀者的信息需求,但卻造成“館藏資源孤島”和“館藏資源超載”兩大困境。而用戶的需求不再僅僅是從無數(shù)館藏中快速找到所要信息,還要求獲得信息中蘊含的知識內(nèi)容及邏輯關(guān)系,以進行知識的理解、使用和創(chuàng)造。針對圖書館的這種困境和數(shù)字化資源環(huán)境中用戶更高的閱讀需求等問題,通過多種途徑、多種方法來揭示和關(guān)聯(lián)日益豐富的數(shù)字資源,以利于用戶對信息資源的有效獲取和知識內(nèi)容的共建共享。所以,如何對館藏資源進行深層次揭示、聚合和有效地展示、利用成為業(yè)界關(guān)注的熱點問題。
基于此,本書從理論、方法和實踐角度探討了如何從具有豐富語義信息的館藏中進行資源的語義聚合和可視化展示,以期能夠通過資源聚合更好地服務(wù)于用戶。只有在館藏資源的語義化基礎(chǔ)上,才能通過共通的語義形式從多個方面對資源進行關(guān)聯(lián),進而實現(xiàn)從資源聚合到知識的創(chuàng)新。本書以用戶需求為導(dǎo)向,采用用戶行為、本體、關(guān)聯(lián)數(shù)據(jù)等理論思想,以及相關(guān)方法工具,以探究館藏的知識內(nèi)容以及知識單元的語義關(guān)系,通過關(guān)聯(lián)、聚類、融合和分類等過程,使得散亂和獨立的資源再次組織成為一個有序整體,用以服務(wù)于用戶對館藏中所需的規(guī)律、模式、特色等知識單元以及知識之間的關(guān)聯(lián)關(guān)系,最終實現(xiàn)基于語義的資源聚合和可視化展示平臺。
全書共分為10章,每章的主要內(nèi)容簡述如下。
第1章,首先,從全局概述開展數(shù)字圖書館館藏資源語義聚合的背景和意義,并從數(shù)字資源聚合、數(shù)字資源聚合的方式、數(shù)字資源聚合技術(shù)和數(shù)字資源聚合的實踐探索四個角度對當前館藏資源語義聚合的基本現(xiàn)狀進行梳理和述評。其次,根據(jù)現(xiàn)有館藏資源的聚合方式及存在問題,總結(jié)得出在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上的資源聚合的優(yōu)缺點,其后提出完善館藏資源的服務(wù)內(nèi)容的研究思路和方法。最后,對本書的主要內(nèi)容及創(chuàng)新之處進行了總結(jié)。
第2章,分析了當前數(shù)字資源聚合的基本概念和方法,根據(jù)數(shù)字圖書館中資源聚合出現(xiàn)的問題,歸納了當前數(shù)字資源聚合所面臨的困境。在用戶行為相關(guān)研究的基礎(chǔ)上,闡述了國內(nèi)外學者對用戶行為的不同認識,給出了本書對用戶行為的理解。進一步分析基于用戶行為的數(shù)字資源語義聚合理論框架,具體從用戶行為定義、用戶行為理論和方法、用戶行為數(shù)據(jù)聚合三個方面做了詳細闡述。
第3章,論述了基于語義的館藏資源語義聚合的相關(guān)理論。首先,對語義網(wǎng)及語義標注相關(guān)理論進行了闡述,主要包括語義網(wǎng)的發(fā)展、語義標注相關(guān)技術(shù),并厘清了元數(shù)據(jù)、本體及語義標注間的關(guān)系。其次,介紹了關(guān)聯(lián)數(shù)據(jù)的概念、關(guān)聯(lián)數(shù)據(jù)的類型劃分、關(guān)聯(lián)數(shù)據(jù)的支撐技術(shù)及其構(gòu)建的關(guān)鍵實現(xiàn)技術(shù)。最后,分析了基于關(guān)聯(lián)標簽的數(shù)字資源語義聚合方法的內(nèi)涵、特點、步驟和優(yōu)勢。
第4章,深入對如何構(gòu)建用戶行為特征庫進行了研究。首先,從構(gòu)建用戶行為特征庫的外部系統(tǒng)環(huán)境入手,對用戶行為的獲取與挖掘進行了宏觀研究。其次,從數(shù)據(jù)庫的層次結(jié)構(gòu)視角對構(gòu)建用戶行為特征庫進行了可行性分析。接著從數(shù)據(jù)預(yù)處理、數(shù)據(jù)采集、數(shù)據(jù)抽取,到數(shù)據(jù)格式標準化對用戶行為創(chuàng)建流程進行了詳細論述,并對特征庫的層次結(jié)構(gòu)進行描述。最后,在本章實驗部分,依照特征庫創(chuàng)建流程設(shè)計了三個用戶行為特征采集與挖掘工具。
第5章,基于用戶行為特征庫內(nèi)的詞語集合,創(chuàng)建用戶行為詞表,研究詞詞關(guān)聯(lián)和詞表聚合。首先,利用成熟的詞表技術(shù)將用戶行為特征庫中的詞匯進行序化,并借助TF-IDF改進算法及MDS算法兩種方式來提取能代表用戶特征的中心詞匯。其次,討論了模糊集合理論中詞詞關(guān)系的數(shù)據(jù)處理問題,在此基礎(chǔ)上進行詞表中詞詞關(guān)聯(lián)值的探討,并通過關(guān)聯(lián)矩陣進行詞間語義關(guān)系的實證研究。然后,借助比較排序、相關(guān)排序、Pagerank等方法對詞表進行融合研究。最后根據(jù)詞間語義關(guān)系進行由詞表向本體的轉(zhuǎn)化,并闡述了如何利用詞表創(chuàng)建用戶行為的本體過程。
第6章,主要在第4和5章的技術(shù)基礎(chǔ)上構(gòu)建用戶行為本體庫,并以用戶為中心進行本體聚合。首先,用戶需求、用戶體驗、用戶興趣三者為用戶行為本體構(gòu)建的出發(fā)點,在本體創(chuàng)建總方向上對用戶行為本體構(gòu)建做出規(guī)范。其次,進行了用戶本體的存儲與操作的相關(guān)內(nèi)容,在這些理論與方法的基礎(chǔ)上闡述了用戶行為本體的構(gòu)建流程。再次,提出以用戶行為特征為中心的異質(zhì)本體聚合與融合的解決方案。