在云計算和物聯(lián)網(wǎng)等新興信息技術高速發(fā)展的今天,由于半結構化數(shù)據(jù)具有靈活易擴展的存儲結構,已被許多信息系統(tǒng)和應用作為公共數(shù)據(jù)模型,被廣泛地用于大規(guī)模異構數(shù)據(jù)的使用場景中。幾乎所有行業(yè)都制定了描述和共享本領域數(shù)據(jù)的半結構化數(shù)據(jù)模型應用標準。隨著半結構化數(shù)據(jù)的廣泛使用,如何對大規(guī)模半結構化數(shù)據(jù)進行有效的管理,在學術界是一個重要的研究課題,而在工業(yè)界又是一項具有廣闊應用前景的技術。本書以XML為代表,探討了大規(guī)模半結構化數(shù)據(jù)管理中的模式提取、節(jié)點編碼、索引與查詢處理等關鍵問題。本書既適合初學者作為基礎學習資料,又適合科研人員作為理論研究教程,更適合從業(yè)人員作為技術參考書目。
隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,傳統(tǒng)的結構化數(shù)據(jù)模型已經(jīng)無法滿足人們對信息處理的要求。尤其是在云計算和物聯(lián)網(wǎng)高速發(fā)展的今天,對管理半結構化數(shù)據(jù)、大規(guī)模信息處理等領域的研究越來越多地被關注。由于半結構化數(shù)據(jù)模型既能描述半結構化數(shù)據(jù)又能描述結構化數(shù)據(jù),而且具有靈活易擴展的存儲結構,其已被許多系統(tǒng)和應用作為公共數(shù)據(jù)模型,被廣泛地用于異構數(shù)據(jù)量大的應用中。如今,幾乎所有行業(yè)都制定了描述和共享本領域數(shù)據(jù)的半結構化數(shù)據(jù)模型應用標準。此外,由于半結構化數(shù)據(jù)模型具有易于描述結構、易于校驗、易于展現(xiàn)等特點,許多原本是以非結構化方式進行存儲的數(shù)據(jù),也可以通過半結構化數(shù)據(jù)模型進行描述并存儲。
因此,如何對大規(guī)模半結構化數(shù)據(jù)進行有效的管理,在學術界是一個重要的理論研究課題,同時在工業(yè)界又是一項具有廣闊應用前景的技術。本書以XML為代表,探討了大規(guī)模半結構化數(shù)據(jù)管理中的關鍵問題模式提取、節(jié)點編碼、索引與查詢處理等研究課題。本書主要內容如下:
(1)針對現(xiàn)有基于正則表達式的模式提取方法的不足之處,本書根據(jù)XML Schema規(guī)范中元素內容模型的特點,提出了XTree算法,該算法可以快速、準確地并發(fā)提取多個大規(guī)模(GB級)XML文檔的結構。該算法與其他基于正則表達式的算法最顯著的區(qū)別在于,XTree對于元素內容模型的提取加入了對元素內容模型是否有序的區(qū)分,降低了算法的時間復雜度和空間復雜度。
(2)針對現(xiàn)有半結構化數(shù)據(jù)節(jié)點編碼方案的不足之處,本研究提出了D2編碼方案,該算法在靜態(tài)編碼和動態(tài)編碼中都表現(xiàn)出良好的性能,而且易于二進制串行化和反串行化,具有較高的實用價值。和其他半結構化數(shù)據(jù)節(jié)點編碼方案相比,D2編碼最顯著的特點在于,突破了傳統(tǒng)的以整數(shù)作為層標識的限制,采用二進制真分數(shù)作為層標識,由于真分數(shù)的取值區(qū)間是無窮的,所以可以保證在任意位置插入節(jié)點都存在有效的編碼。
(3)本書綜合考慮了目前已有的關系型數(shù)據(jù)庫和大規(guī)模半結構化數(shù)據(jù)的索引技術的優(yōu)缺點,提出一套完善的索引方案D2-Index索引策略,能夠支持高效的查詢處理。它并不只是使用了一種單一的索引技術,而是參考和借鑒了多種技術,如節(jié)點編碼索引、結構索引和倒排索引等。D2-Index索引策略的最顯著之處在于,它的索引文件包括了主索引、路徑輔助索引和值輔助索引,這三種索引都采用分塊存儲的方式提高索引的查找和修改效率。此外,由于是基于D2編碼方案的,所以D2-Index索引策略可以有效地支持節(jié)點的動態(tài)更新。
(4)根據(jù)目前對于大規(guī)模半結構化數(shù)據(jù)查詢處理的研究,本書提出一種以D2-Index索引策略為基礎,基于XPath表達式的CAS查詢處理。這種查詢處理最大的特點在于,將輸入的合法CAS語句拆分為多個BXCAS語句,再對拆分的語句按順序進行處理,根據(jù)D2-Index策略中的路徑和值輔助索引,獲取符合查詢條件的節(jié)點的D2物理編碼,再從主索引中獲取其在源數(shù)據(jù)中的位置信息,最終以異步的方式輸出結果。
張引(1986 ),男,江西九江人,理學博士,現(xiàn)為中南財經(jīng)政法大學計算機科學與技術系副教授、碩士生導師,長期從事認知計算與智能服務領域的研究,目前主持國家自然科學基金項目2項、教育部人文社會科學研究項目1項;近5年共發(fā)表論文80余篇,其中SCI收錄超過50篇,并有9篇論文入選ESI高被引論文。在《IEEE Network》《IEEE Access》等國際知名SCI期刊擔任編委等職務,曾在《Future Generation Computer Systems》《IEEE IoT Journal》《Electronic Markets》等知名SCI/SSCI期刊擔任客座編輯等職務;曾在多個國際學術會議擔任大會主席等職務。2014年當選IEEE計算機協(xié)會大數(shù)據(jù)技術委員會副主席,2015年當選IEEE高級會員,2016年入選中南財經(jīng)政法大學文瀾學者計劃,2017年入選湖北省楚天學者計劃,2018年獲得《IEEE Systems Journal》年度論文獎。
第一章半結構化數(shù)據(jù)的應用背景(1)
第一節(jié)研究背景(2)
第二節(jié)研究內容及意義(6)
一 研究內容(6)
二 研究意義(8)
第三節(jié)本書結構(9)
第二章半結構化數(shù)據(jù)的基礎知識(12)
第一節(jié)半結構化數(shù)據(jù)的結構特征(12)
第二節(jié)半結構化數(shù)據(jù)的結構模型(15)
第三節(jié)半結構化數(shù)據(jù)的模式語言(16)
第四節(jié)半結構化數(shù)據(jù)的查詢語言(17)
第五節(jié)半結構化數(shù)據(jù)的應用程序接口(19)
第三章半結構化數(shù)據(jù)的管理模型(22)
第一節(jié)半結構化數(shù)據(jù)模式提取的相關研究(23)
第二節(jié)半結構化數(shù)據(jù)節(jié)點編碼的相關研究(26)
第三節(jié)半結構化數(shù)據(jù)索引的相關研究(27)
第四節(jié)半結構化數(shù)據(jù)查詢處理的相關研究(30)
第四章半結構化數(shù)據(jù)的模式提。33)
第一節(jié)半結構化數(shù)據(jù)的元素內容模型(34)
一半結構化數(shù)據(jù)的樹狀結構模型(34)
二半結構化數(shù)據(jù)的元素內容模型(36)
三提取大規(guī)模半結構化數(shù)據(jù)模式的質量標準(38)
第二節(jié)基于正則表達式的模式提取方法(39)
第三節(jié)基于集合/序列的模式提取方法XTree(48)
第四節(jié)實證研究(59)
第五節(jié)小結(72)
第五章半結構化數(shù)據(jù)的節(jié)點編碼(75)
第一節(jié)半結構化數(shù)據(jù)節(jié)點編碼的特點(76)
第二節(jié)D2編碼方案(89)
第三節(jié)D2編碼的二進制表示(95)
第四節(jié)實證研究(106)
第五節(jié)小結(109)
第六章半結構化數(shù)據(jù)的索引和查詢處理(111)
第一節(jié)D2-Index索引策略(112)
第二節(jié)基于D2-Index索引策略的查詢處理(130)
第三節(jié)實證研究(137)
第四節(jié)小結(140)
第七章半結構化數(shù)據(jù)與大數(shù)據(jù)(143)
第一節(jié)大數(shù)據(jù)時代來臨(143)
第二節(jié)大數(shù)據(jù)基礎(146)
第三節(jié)大數(shù)據(jù)應用(157)
第八章總結(187)
第一節(jié)主要內容(187)
第二節(jié)未來研究展望(189)