定 價:79 元
叢書名:數(shù)據(jù)科學(xué)與工程技術(shù)叢書
- 作者:[美]張超(Chao Zhang) 韓家煒(Jiawei Han)
- 出版時間:2020/7/1
- ISBN:9787111659907
- 出 版 社:機械工業(yè)出版社
- 中圖法分類:TP274
- 頁碼:0
- 紙張:
- 版次:
- 開本:16開
本書由國際數(shù)據(jù)挖掘領(lǐng)域泰斗、UIUC韓家瑋教授和其學(xué)生張超博士(現(xiàn)為佐治亞理工學(xué)院助理教授)合著。介紹了將非結(jié)構(gòu)化文本數(shù)據(jù)轉(zhuǎn)換為多維知識的數(shù)據(jù)挖掘技術(shù),并講解了他們開發(fā)的文本多維數(shù)據(jù)集框架的原理和使用方法。
譯者序
作者簡介
譯者簡介
第1章 引言 1
1.1 概述 1
1.2 主要部分 3
1.2.1 第一部分:立方體構(gòu)造 3
1.2.2 第二部分:立方體開發(fā) 5
1.2.3 示例應(yīng)用 5
1.3 技術(shù)路線 6
1.3.1 任務(wù)1:分類器生成 7
1.3.2 任務(wù)2:文檔分配 8
1.3.3 任務(wù)3:多維摘要 8
1.3.4 任務(wù)4:跨維度預(yù)測 9
1.3.5 任務(wù)5:異常事件檢測 9
1.3.6 小結(jié) 9
1.4 本書大綱 10
第一部分 立方體構(gòu)造算法
第2章 主題級分類器生成 12
2.1 概述 12
2.2 相關(guān)工作 15
2.2.1 監(jiān)督分類器學(xué)習(xí) 15
2.2.2 基于模式的提取 15
2.2.3 基于聚類的分類器構(gòu)建 16
2.3 準(zhǔn)備工作 17
2.3.1 問題定義 17
2.3.2 方法概述 17
2.4 自適應(yīng)詞聚類 18
2.4.1 劃分主題的球形聚類 18
2.4.2 識別代表性詞語 20
2.5 自適應(yīng)詞嵌入 21
2.5.1 分布式詞語表示 21
2.5.2 學(xué)習(xí)局部詞嵌入 21
2.6 實驗評估 22
2.6.1 實驗設(shè)計 22
2.6.2 定性結(jié)果 24
2.6.3 定量分析 27
2.7 小結(jié) 29
第3章 詞語級分類器生成 30
3.1 概述 30
3.2 相關(guān)工作 32
3.3 問題定義 33
3.4 HiExpan框架 33
3.4.1 框架概述 33
3.4.2 關(guān)鍵詞提取 34
3.4.3 層次樹擴展 34
3.4.4 分類器全局優(yōu)化 41
3.5 實驗 42
3.5.1 實驗設(shè)計 42
3.5.2 定性結(jié)果 43
3.5.3 定量結(jié)果 44
3.6 小結(jié) 47
第4章 弱監(jiān)督文本分類 48
4.1 概述 48
4.2 相關(guān)工作 51
4.2.1 潛在變量模型 51
4.2.2 基于嵌入的模型 51
4.3 準(zhǔn)備工作 52
4.3.1 問題定義 52
4.3.2 方法概述 53
4.4 偽文檔生成 53
4.4.1 建模類分布 53
4.4.2 生成偽文檔 55
4.5 自訓(xùn)練的神經(jīng)模型 56
4.5.1 神經(jīng)模型預(yù)訓(xùn)練 56
4.5.2 神經(jīng)模型自訓(xùn)練 57
4.5.3 基于CNN和RNN的實例化 58
4.6 實驗 59
4.6.1 數(shù)據(jù)集 59
4.6.2 基線 59
4.6.3 實驗設(shè)計 60
4.6.4 實驗結(jié)果 61
4.6.5 參數(shù)研究 65
4.6.6 案例研究 67
4.7 小結(jié) 68
第5章 弱監(jiān)督層次文本分類 69
5.1 概述 69
5.2 相關(guān)工作 71
5.2.1 弱監(jiān)督文本分類 71
5.2.2 層次文本分類 71
5.3 問題定義 72
5.4 偽文檔生成 72
5.5 層次分類模型 74
5.5.1 局部分類器預(yù)訓(xùn)練 75
5.5.2 全局分類器自訓(xùn)練 75
5.5.3 阻斷機制 77
5.5.4 推導(dǎo) 77
5.5.5 算法概述 77
5.6 實驗 78
5.6.1 實驗設(shè)計 78
5.6.2 定量比較 80
5.6.3 組件評估 82
5.7 小結(jié) 84
第二部分 立方體開發(fā)算法
第6章 多維摘要 86
6.1 概述 86
6.2 相關(guān)工作 89
6.3 準(zhǔn)備工作 90
6.3.1 文本立方體準(zhǔn)備 90
6.3.2 問題定義 91
6.4 排名度量 91
6.4.1 普遍性和完整性 92
6.4.2 鄰域敏感的獨特性 92
6.5 RepPhrase方法 96
6.5.1 簡介 96
6.5.2 混合離線物化 97
6.5.3 最優(yōu)在線處理 100
6.6 實驗 101
6.6.1 實驗設(shè)計 101
6.6.2 有效性評估 103
6.6.3 效率評估 107
6.7 小結(jié) 111
第7章 立方體空間中的跨維度預(yù)測 112
7.1 概述 112
7.2 相關(guān)工作 114
7.3 準(zhǔn)備工作 115
7.3.1 問題描述 115
7.3.2 方法概述 115
7.4 半監(jiān)督多模態(tài)嵌入 117
7.4.1 無監(jiān)督重構(gòu)任務(wù) 117
7.4.2 監(jiān)督分類任務(wù) 119
7.4.3 優(yōu)化程序 119
7.5 多模態(tài)嵌入的在線更新 120
7.5.1 生命衰減學(xué)習(xí) 120
7.5.2 基于約束的學(xué)習(xí) 121
7.5.3 復(fù)雜度分析 124
7.6 實驗 124
7.6.1 實驗設(shè)計 124
7.6.2 定量比較 127
7.6.3 案例研究 129
7.6.4 參數(shù)影響 132
7.6.5 下游應(yīng)用 134
7.7 小結(jié) 135
第8章 立方體空間中的事件檢測 136
8.1 概述 136
8.2 相關(guān)工作 138
8.2.1 突發(fā)事件檢測 138
8.2.2 時空事件檢測 139
8.3 準(zhǔn)備工作 140
8.3.1 問題定義 140
8.3.2 方法概述 140
8.3.3 多模態(tài)嵌入 142
8.4 候選生成 143
8.4.1 貝葉斯混合聚類模型 144
8.4.2 參數(shù)評估 145
8.5 候選分類 146
8.5.1 多模態(tài)嵌入的特征推導(dǎo) 146
8.5.2 分類過程 147
8.6 支持持續(xù)的事件檢測 147
8.7 復(fù)雜度分析 148
8.8 實驗 148
8.8.1 實驗設(shè)計 148
8.8.2 定性結(jié)果 150
8.8.3 定量結(jié)果 153
8.8.4 可擴展性研究 154
8.8.5 特征的重要性 155
8.9 小結(jié) 156
第9章 結(jié)論 157
9.1 總結(jié) 157
9.2 未來工作 158
參考文獻(xiàn) 160