色青综合网,黄金网站app免费,精品一区二区三区日韩

　　本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的基本原理和應(yīng)用方法。全書共分為12章，主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲和處理、數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與開發(fā)、關(guān)聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計分析、文本和Web挖掘。　　本書既重視理論知識的講解，又強調(diào)應(yīng)用技能的培養(yǎng)。每章首先介紹算法的主要思想和理論基礎(chǔ)，之后利用算法去解決實例中給出的任務(wù)，而且對于數(shù)據(jù)倉庫的組建方法和多數(shù)章節(jié)中的數(shù)據(jù)挖掘算法，書中都使用Microsoft SQL Server 2005進行了操作實現(xiàn)。通過對具體實例的學(xué)習(xí)和實踐，使讀者掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘中必要的知識點，達到學(xué)以致用的目的。　　本書每章均配有習(xí)題，習(xí)題形式為選擇題、簡答題和操作題，可以幫助讀者進一步掌握和鞏固所學(xué)知識。此外，本書提供多媒體教學(xué)課件和習(xí)題參考答案，讀者可到清華大學(xué)出版社網(wǎng)站http://www.tup.com.cn/下載。　　本書可以作為高等學(xué)校計算機及相關(guān)專業(yè)本科、研究生的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教材，也可供相關(guān)領(lǐng)域的廣大科技工作人員和高校師生參考。

　　隨著計算機和信息時代的迅猛發(fā)展，人類收集、存儲和訪問數(shù)據(jù)的能力大大增強，快速增長的海量數(shù)據(jù)集已經(jīng)遠遠超出了人類的理解能力，傳統(tǒng)的數(shù)據(jù)分析工具也顯得力不從心。如何才能不被這些海量數(shù)據(jù)淹沒，而是有效地組織這些數(shù)據(jù)，并且從中找出有價值的知識，幫助人類制定正確的決策？針對這一問題，數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)應(yīng)運而生，并且顯示出強大的生命力。要將海量數(shù)據(jù)轉(zhuǎn)換成為有用的信息和知識，首先要有效地收集和組織數(shù)據(jù)。數(shù)據(jù)倉庫是良好的數(shù)據(jù)收集和組織工具，它的任務(wù)是搜集來自各個業(yè)務(wù)系統(tǒng)的有用數(shù)據(jù)，存放在一個集成的儲存區(qū)內(nèi)。在數(shù)據(jù)倉庫豐富完整的數(shù)據(jù)基礎(chǔ)上，數(shù)據(jù)挖掘技術(shù)可以從中挖掘出有價值的知識，從而幫助決策者正確決策。

　　本書主要介紹數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的基本原理和應(yīng)用方法，全書共分為12章，主要內(nèi)容包括數(shù)據(jù)倉庫的概念和體系結(jié)構(gòu)、數(shù)據(jù)倉庫的數(shù)據(jù)存儲和處理、數(shù)據(jù)倉庫系統(tǒng)的設(shè)計與開發(fā)、關(guān)聯(lián)規(guī)則、數(shù)據(jù)分類、數(shù)據(jù)聚類、貝葉斯網(wǎng)絡(luò)、粗糙集、神經(jīng)網(wǎng)絡(luò)、遺傳算法、統(tǒng)計分析、文本和Web挖掘。其中，前3章主要介紹數(shù)據(jù)倉庫的基本原理和數(shù)據(jù)倉庫系統(tǒng)的組建方法，后面的章節(jié)介紹當(dāng)前流行的數(shù)據(jù)挖掘算法的主要思想和理論基礎(chǔ)，并且給出豐富的應(yīng)用實例。

　　本書緊跟數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的發(fā)展和人才培養(yǎng)的目標，有以下幾個特點。

　　（1）可讀性強，文字敘述深入淺出，易讀易用，即使是初學(xué)者，閱讀起來也比較容易。

　�。�2）概念清晰，條理清楚，內(nèi)容取舍合理。

　�。�3）本書強調(diào)基礎(chǔ)，重視實例。各章節(jié)都以經(jīng)典算法為主，介紹其主要思想和基本原理，并且給出恰當(dāng)和豐富的實例。

　　（4）書中實例和課后習(xí)題實用、豐富，通過練習(xí)，讀者可以對各個知識點從不同角度得到訓(xùn)練，掌握和鞏固所學(xué)知識。

　�。�5）教學(xué)資源豐富，本書提供多媒體教學(xué)課件和習(xí)題參考答案，方便教學(xué)。對于上述資源，讀者可到清華大學(xué)出版社的網(wǎng)站http://www.tup.com.cn/下載。

　�。�6）對于數(shù)據(jù)倉庫的組建方法和多數(shù)章節(jié)中的數(shù)據(jù)挖掘算法，本書都使用MicrosoftSQLServer2005進行了操作實現(xiàn)，這種做法與市場主流開發(fā)工具和技術(shù)同步，有利于讀者走向社會。

　　本書各章節(jié)之間銜接自然，同時各章節(jié)又有一定的獨立性，讀者可按教材的自然順序?qū)W習(xí)，也可以根據(jù)實際情況挑選需要的章節(jié)學(xué)習(xí)。

　　本書可以作為高等學(xué)校計算機及相關(guān)專業(yè)本科、研究生學(xué)習(xí)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的教材，也可供相關(guān)領(lǐng)域的廣大科技工作人員和高校師生參考。

　　本書由陳志泊擔(dān)任主編，第1~3章由聶耿青編寫，第5章、第6章和第11章由韓慧編寫，第4章和第10章由孫俏編寫，第7~9章和第12章由王建新編寫。

　　由于時間倉促，加之編者水平有限，對于書中不足之處敬請讀者批評指正。

　　編者

　　2017年8月

　　第5章

　　數(shù)據(jù)分類

　　隨著計算機和信息時代的到來，人類收集、存儲和訪問數(shù)據(jù)的能力大大增強，快速增長的海量數(shù)據(jù)集被存儲在大型數(shù)據(jù)庫中，隨時充斥著我們的計算機、網(wǎng)絡(luò)和生活，理解如此豐富的數(shù)據(jù)已經(jīng)遠遠超出人類的能力，原有的數(shù)據(jù)分析工具也顯得力不從心。為了不被數(shù)據(jù)淹沒，而是從中及時發(fā)現(xiàn)有價值的信息，從而制定正確的決策，數(shù)據(jù)挖掘技術(shù)應(yīng)運而生，并且顯示出強大的生命力。數(shù)據(jù)挖掘的方法多種多樣，包括關(guān)聯(lián)規(guī)則挖掘、分類、聚類和統(tǒng)計分析等，其中分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一，如何更精確、更有效地分類一直是人們追求的目標。

　　5.1引例

　　分類是指把數(shù)據(jù)樣本映射到一個事先定義的類中的學(xué)習(xí)過程，即給定一組輸入的屬性向量及其對應(yīng)的類，用基于歸納的學(xué)習(xí)算法得出分類。

　　分類問題是數(shù)據(jù)挖掘領(lǐng)域中研究和應(yīng)用最為廣泛的技術(shù)之一，許多分類算法被包含在統(tǒng)計分析工具的軟件包中，作為專門的分類工具來使用。分類問題在商業(yè)、銀行業(yè)、醫(yī)療診斷、生物學(xué)、文本挖掘和因特網(wǎng)篩選等領(lǐng)域都有廣泛應(yīng)用。例如，在銀行業(yè)中，分類方法可以輔助工作人員將正常信用卡用戶和欺詐信用卡用戶進行分類，從而采取有效措施減小銀行的損失；在醫(yī)療診斷中，分類方法可以幫助醫(yī)療人員將正常細胞和癌變細胞進行分類，從而及時制定救治方案，挽救病人的生命；在因特網(wǎng)篩選中，分類方法可以協(xié)助網(wǎng)絡(luò)工作人員將正常郵件和垃圾郵件進行分類，從而制定有效的垃圾郵件過濾機制，防止垃圾郵件干擾人們的正常生活。

　　分類問題中使用的數(shù)據(jù)集是用什么形式來表示的呢？如表5.1所示，數(shù)據(jù)集通過描述屬性和類別屬性來表示。其中，第一行中的Age，Salary稱為數(shù)據(jù)樣本的描述屬性，Class稱為數(shù)據(jù)樣本的類別屬性。從第二行開始的內(nèi)容分別對應(yīng)描述屬性和類別屬性的具體取值。

　　表5.1分類問題的示例數(shù)據(jù)集

　　AgeSalaryClass

　　30highc1

　　25highc2

　　21lowc2

　　43highc1

　　18lowc2

　　33lowc1

　　︙︙︙

　　在分類問題中，描述屬性可以是連續(xù)型屬性(continuousattribute)，也可以是離散型屬性(discreteattribute)；而類別屬性必須是離散型屬性。所謂連續(xù)型屬性，是指在某一個區(qū)間或者無窮區(qū)間內(nèi)該屬性的取值是連續(xù)的，表5.1中的屬性Age就是連續(xù)型屬性；離散型屬性是指該屬性的取值是不連續(xù)的，表5.1中的屬性Salary和Class就是離散型屬性。Salary的具體取值是high和low，表示工資的高和低

　　,Class的具體取值是c1和c2，表示該數(shù)據(jù)集分為兩個類別。在具體的應(yīng)用中，針對不同的算法，有時需要將連續(xù)屬性轉(zhuǎn)化為離散屬性。

　　通過上述介紹，可以將分類問題中使用的數(shù)據(jù)集表示為X={(xi,yi)|i=1,2,…,

　　total}，其中數(shù)據(jù)樣本xi(i=1,2,…,total)用d維特征向量xi=(xi1,xi2,…,xid)來表示，xi1,xi2,…,xid分別對應(yīng)d個描述屬性A1,A2,…,Ad的具體取值；yi表示數(shù)據(jù)樣本xi的類標號。假設(shè)給定數(shù)據(jù)集包含m個類別，則yi∈{c1,c2,…,cm}，其中c1,c2,…,cm是類別屬性C的具體取值，也稱為類標號。對于未知類標號的數(shù)據(jù)樣本x，用d維特征向量x=(x1,x2,…,xd)來表示。

你還可能感興趣

我要評論