本書以任務驅動為主線,圍繞企業(yè)級應用進行項目任務設計,主要內容包括數(shù)據(jù)采集與預處理準備、網(wǎng)絡爬蟲實踐、日志數(shù)據(jù)采集實踐和數(shù)據(jù)預處理實踐,全面地講述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技術,以及urllib、Selenium基本庫和BeautifulSoup解析庫的相關知識與應用案例。
本書內容實用,可操作性強,語言精練、通俗易懂,可作為高等院校計算機應用技術、大數(shù)據(jù)技術與應用、軟件技術、云計算技術與應用等計算機相關專業(yè)的教材,也可作為大數(shù)據(jù)分析、云計算應用領域技術人員的參考用書。
1.基于企業(yè)級項目,以任務驅動為主線,便于教師教學,學生理解。
2.配套資源齊全。配備教學大綱、PPT課件、授課計劃、習題答案。
3.企業(yè)配套資源,院校完善體系結構。
米洪,主持省級項目3項;發(fā)表北大核心論文5篇;學院交通物聯(lián)網(wǎng)技術科技創(chuàng)新團隊骨干成員;江蘇省高等職業(yè)院校教師專業(yè)帶頭人訪問學者(東南大學);江蘇省高校“青藍工程”優(yōu)秀中青年骨干教師。
項目1
數(shù)據(jù)采集與預處理準備 1
學習目標 1
項目描述 1
任務1 認識數(shù)據(jù)采集技術,熟悉數(shù)據(jù)采集平臺 1
任務描述 1
任務目標 2
知識準備 2
任務實施 10
任務2 認識數(shù)據(jù)預處理技術 13
任務描述 13
任務目標 13
知識準備 13
任務實施 19
項目2
網(wǎng)絡爬蟲實踐 24
學習目標 24
項目描述 24
任務1 使用urllib爬取北京公交線路信息 24
任務描述 24
任務目標 25
知識準備 25
任務實施 48
任務2 使用Selenium爬取淘寶網(wǎng)站信息 58
任務描述 58
任務目標 58
知識準備 58
任務實施 69
任務3 使用Scrapy爬取北京公交信息 75
任務描述 75
任務目標 75
知識準備 75
任務實施 78
任務4 創(chuàng)新與拓展 86
任務描述 86
任務目標 86
項目3
日志數(shù)據(jù)采集實踐 87
學習目標 87
項目描述 87
任務1 Flume的安裝和配置 87
任務描述 87
任務目標 88
知識準備 88
任務實施 95
任務2 Flume采集數(shù)據(jù)上傳到集群 105
任務描述 105
任務目標 106
知識準備 106
任務實施 110
任務3 創(chuàng)新與拓展 118
任務描述 118
任務目標 118
項目4
數(shù)據(jù)預處理實踐 119
學習目標 119
項目描述 119
任務1 用Pig進行數(shù)據(jù)預處理 119
任務描述 119
任務目標 120
知識準備 120
任務實施 134
任務2 用Kettle進行數(shù)據(jù)預處理 137
任務描述 137
任務目標 137
知識準備 137
任務實施 139
任務3 用Pandas進行數(shù)據(jù)預處理 150
任務描述 150
任務目標 150
知識準備 150
任務實施 153
任務4 用OpenRefine進行數(shù)據(jù)預處理 155
任務描述 155
任務目標 155
知識準備 155
任務實施 157
任務5 用Flume Interceptor對日志信息進行數(shù)據(jù)預處理 162
任務描述 162
任務目標 163
知識準備 163
任務實施 167
任務6 創(chuàng)新與拓展 176
任務描述 176
任務目標 176