《信息檢索實驗》共分5章,第1章主要從網(wǎng)絡(luò)信息采集的角度引導(dǎo)學(xué)生進行相關(guān)實驗;第2章側(cè)重于讓學(xué)生掌握信息索引的機制及設(shè)計實現(xiàn);第3章介紹了幾個典型的信息檢索模型及其實現(xiàn);第4章側(cè)重于從效果的角度引導(dǎo)學(xué)生掌握信息檢索評價方法;第5章則對XML有關(guān)知識及其檢索實驗進行了介紹。
《信息檢索實驗》旨在從信息流的視角出發(fā),面向?qū)嶒炁c實踐,引導(dǎo)學(xué)生理解并掌握信息檢索相關(guān)理論方法和實現(xiàn)技術(shù),提高學(xué)生的實驗實踐能力和創(chuàng)新精神,為進一步開展科學(xué)研究和從事相關(guān)社會實踐工作打下堅實的基礎(chǔ)。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)信息資源呈現(xiàn)爆炸性的增長,因而如何有效地管理和利用這些信息資源就成為情報學(xué)和信息管理類專業(yè)理論研究和應(yīng)用實踐的重要課題。作為信息管理專業(yè)的基礎(chǔ)和核心內(nèi)容之一,信息檢索相關(guān)理論和方法在信息資源的管理和有效利用方面發(fā)揮著日益重要的作用,從Google、Baidu等搜索引擎到中國期刊網(wǎng)、萬方等學(xué)術(shù)數(shù)據(jù)庫,甚至到企業(yè)的網(wǎng)站建設(shè),都需要用到信息檢索技術(shù)。今天,信息檢索正滲透到人們生活的各個領(lǐng)域,潛移默化地改變著人們的生活。
廣義的信息檢索涉及信息資源的采集、加工、存儲(索引)、檢索利用與評價等多個方面。本實驗教材旨在從信息流的視角出發(fā),面向?qū)嶒炁c實踐,引導(dǎo)學(xué)生理解并掌握網(wǎng)絡(luò)信息采集、信息索引、信息檢索模型、檢索評價等相關(guān)理論方法和實現(xiàn)技術(shù),提高學(xué)生的實踐能力和創(chuàng)新精神,為其進一步開展科學(xué)研究和從事相關(guān)社會實踐工作打下堅實的基礎(chǔ)。
本實驗教材共分5章,第1章主要是從網(wǎng)絡(luò)信息采集的角度引導(dǎo)學(xué)生進行相關(guān)實驗;第2章側(cè)重于讓學(xué)生掌握信息索引的機制及設(shè)計實現(xiàn);第3章介紹了幾個典型的信息檢索模型及其實現(xiàn);第4章側(cè)重于從效果的角度引導(dǎo)學(xué)生掌握信息檢索評價方法;由于XML在信息傳遞及網(wǎng)絡(luò)信息組織等方面日益廣泛的應(yīng)用,第5章對XML的有關(guān)知識及其檢索實現(xiàn)等通過實驗設(shè)計進行了介紹。韓曙光、袁澤林、姜捷璞、秦喜艷、劉丹分別負責(zé)以上各章的編寫,陸偉負責(zé)教材整體的修改和統(tǒng)稿。
本書可作為信息管理相關(guān)專業(yè)本科生、研究生的實驗教學(xué)用書,亦可作為圖書館學(xué)、檔案學(xué)、電子商務(wù)等專業(yè)的教學(xué)參考用書。
由于時間倉促,文中難免有不足和疏漏之處,敬請讀者批評指正!
前言
1 網(wǎng)絡(luò)信息采集實驗
1.1 網(wǎng)絡(luò)蜘蛛程序設(shè)計
1.1.1 實驗?zāi)繕?br />
1.1.2 實驗內(nèi)容
1.1.3 背景知識
1.1.4 實驗步驟
1.1.5 參考示例
1.1.6 實驗分析
1.1.7 參考程序
1.2 網(wǎng)頁清理
1.2.1 實驗?zāi)繕?br />
1.2.2 實驗內(nèi)容
1.2.3 背景知識
1.2.4 實驗步驟
1.2.5 參考示例
1.2.6 實驗分析
1.3 Google檢索接口的調(diào)用
1.3.1 實驗?zāi)繕?br />
1.3.2 實驗內(nèi)容
1.3.3 背景知識
1.3.4 實驗步驟
1.3.5 參考示例
1.3.6 實驗分析
1.3.7 參考程序
2 信息索引實驗
2.1 倒排文檔索引
2.1.1 實驗?zāi)繕?br />
2.1.2 實驗內(nèi)容
2.1.3 背景知識
2.1.4 實驗步驟
2.1.5 參考示例
2.1.6 實驗分析
2.2 詞干提取和停用詞分析
2.2.1 實驗?zāi)繕?br />
2.2.2 實驗內(nèi)容
2.2.3 背景知識
2.2.4 實驗步驟
2.2.5 參考示例
2.2.6 實驗分析
2.3 中文分詞
2.3.1 實驗?zāi)繕?br />
2.3.2 實驗內(nèi)容
2.3.3 背景知識
2.3.4 實驗步驟
2.3.5 參考示例
2.3.6 實驗分析
2.4 Lucene索引分析
2.4.1 實驗?zāi)繕?br />
2.4.2 實驗內(nèi)容
2.4.3 背景知識
2.4.4 實驗步驟
2.4.5 參考示例
2.4.6 實驗分析
3 信息檢索模型實驗
3.1 向量空間模型
3.1.1 實驗?zāi)繕?br />
3.1.2 實驗內(nèi)容
3.1.3 背景知識
3.1.4 實驗步驟
3.1.5 參考示例
3.1.6 實驗分析
3.2 概率模型
3.2.1 實驗?zāi)繕?br />
3.2.2 實驗內(nèi)容
3.2.3 背景知識
3.2.4 實驗步驟
3.2.5 參考示例
3.2.6 實驗分析
3.3 基于Lueene的檢索擴展
3.3.1 實驗?zāi)繕?br />
3.3.2 實驗內(nèi)容
3.3.3 背景知識
3.3.4 實驗步驟
3.3.5 參考示例
3.3.6 實驗分析
3.4 PageRank算法及實現(xiàn)
3.4.1 實驗?zāi)繕?br />
3.4.2 實驗內(nèi)容
3.4.3 背景知識
3.4.4 實驗步驟
3.4.5 參考示例
3.4.6 實驗分析
4檢 索評價實驗
4.1 查全率和查準率的關(guān)系
4.1.1 實驗?zāi)繕?br />
4.1.2 實驗內(nèi)容
4.1.3 背景知識
4.1.4 實驗步驟
4.1.5 參考示例
4.1.6 實驗分析
4.2 計算MAP和R-prec值
4.2.1 實驗?zāi)繕?br />
4.2.2 實驗內(nèi)容
4.2.3 背景知識
4.2.4 實驗步驟
4.2.5 參考示例
4.2.6 實驗分析
4.3 利用P@N的搜索引擎比較實驗
4.3.1 實驗?zāi)繕?br />
4.3.2 實驗內(nèi)容
4.3.3 背景知識
4.3.4 實驗步驟
4.3.5 參考示例
4.3.6 實驗分析
5 XML檢索實驗
5.1 XML查詢與顯示
5.1.1 實驗?zāi)繕?br />
5.1.2 實驗內(nèi)容
5.1.3 背景知識
5.1.4 實驗步驟
5.1.5 參考示例
5.1.6 實驗分析
5.2 XHU-XML系統(tǒng)的使用與比較
5.2.1 實驗?zāi)繕?br />
5.2.2 實驗內(nèi)容
5.2.3 背景知識
5.2.4 實驗步驟
5.2.5 參考示例
5.2.6 實驗分析
附1 Lucene簡介
附2 環(huán)境安裝與配置
主要參考文獻