定 價:46 元
叢書名:大數(shù)據(jù)應用人才培養(yǎng)系列教材
- 作者:總主編 劉鵬 張燕 主編 劉鵬
- 出版時間:2019/6/1
- ISBN:9787302528449
- 出 版 社:清華大學出版社
- 中圖法分類:TP274
- 頁碼:
- 紙張:膠版紙
- 版次:
- 開本:16開
本書是由中國大數(shù)據(jù)應用聯(lián)盟人工智能專家委員會主任劉鵬教授主編的一本系統(tǒng)學習數(shù)據(jù)標注技術(shù)的教材。本書使用淺顯易懂的語言,系統(tǒng)地介紹了數(shù)據(jù)標注的基本概念、分類、流程、質(zhì)量檢驗、管理和應用等。通過理論與實戰(zhàn)相結(jié)合的方式,幫助讀者由淺入深進行學習,從而真正掌握數(shù)據(jù)標注的核心技術(shù)、實施和管理方法。本書既可以作為培養(yǎng)應用型人才的課程教材,也適用于初學者,以及廣大的數(shù)據(jù)標注行業(yè)從業(yè)者。數(shù)據(jù)標注行業(yè)迅速成長,目前正缺乏一本權(quán)威教材,希望本書能夠填補這個空白。
隨著人工智能技術(shù)的迅猛發(fā)展,數(shù)據(jù)標注行業(yè)也異軍突起。本書是為了能夠更系統(tǒng)地培養(yǎng)數(shù)據(jù)標注工程師而編寫的,從數(shù)據(jù)標注基本概念開始,介紹數(shù)據(jù)標注的前世今生以及發(fā)展趨勢,然后系統(tǒng)地梳理了數(shù)據(jù)標注分類及數(shù)據(jù)標注流程,再對數(shù)據(jù)標注質(zhì)量檢驗和數(shù)據(jù)標注管理進行了詳細介紹,*后分析學習在熱門行業(yè)中數(shù)據(jù)標注的應用,對四大重點行業(yè)給出數(shù)據(jù)標注實戰(zhàn)案例。
有多少智能,就有多少人工。隨著人工智能技術(shù)突飛猛進地發(fā)展,數(shù)據(jù)標注行業(yè)也隨之異軍突起。經(jīng)過短短幾年的發(fā)展,我國專職從事數(shù)據(jù)標注行業(yè)的人員已經(jīng)突破20萬,兼職人員的數(shù)量突破100萬。在未來5年,專職數(shù)據(jù)標注工程師的缺口將高達100萬。人工智能行業(yè)巨頭紛紛尋找專業(yè)的數(shù)據(jù)標注工程師,但目前接受過系統(tǒng)培訓的數(shù)據(jù)標注工程師少之
又少。
早期的數(shù)據(jù)標注工作是由專門研究人工智能算法的工程師進行小規(guī)模的數(shù)據(jù)標注,但在人工智能第三次浪潮之下,小規(guī)模的數(shù)據(jù)標注已經(jīng)不能滿足人工智能的發(fā)展需求,所以在2011年開始出現(xiàn)專門從事數(shù)據(jù)標注工作的團隊,并且慢慢形成了數(shù)據(jù)標注行業(yè)。從2017年開始,人工智能的應用開始呈爆炸式增長,大規(guī)模的數(shù)據(jù)標注需求涌入,讓數(shù)據(jù)標注行業(yè)迎來真正的爆發(fā),正式進入人們的視野。
在快速膨脹的需求與國家扶持政策的推動下,全國高職、中職院校紛紛啟動數(shù)據(jù)標注應用型人才培養(yǎng)計劃。然而,數(shù)據(jù)標注專業(yè)建設卻面臨重重困難。首先,數(shù)據(jù)標注是一個新生事物,懂數(shù)據(jù)標注的教師少之又少,院校缺人;其次,尚未形成完善的數(shù)據(jù)標注人才培養(yǎng)和課程體系,院校缺機制;最后,院校沒有數(shù)據(jù)標注項目,開展數(shù)據(jù)標注教學實踐工作缺原材料。
為了能夠更系統(tǒng)地培養(yǎng)數(shù)據(jù)標注工程師,我們的團隊經(jīng)過大量的市場考察與調(diào)研,深入了解數(shù)據(jù)標注行業(yè),對數(shù)據(jù)標注各個環(huán)節(jié)進行調(diào)查整理,推出了這本教材。本書先從數(shù)據(jù)標注基本概念開始,介紹數(shù)據(jù)標注的前世今生以及發(fā)展趨勢,然后系統(tǒng)地梳理了數(shù)據(jù)標注分類及數(shù)據(jù)標注流程,再對數(shù)據(jù)標注質(zhì)量檢驗和數(shù)據(jù)標注管理進行詳細介紹,最后分析學習熱門行業(yè)數(shù)據(jù)標注應用,對四大重點行業(yè)進行數(shù)據(jù)標注實戰(zhàn)。本書致力于將理論與實踐結(jié)合在一起,讓讀者真正掌握數(shù)據(jù)標注的核心技術(shù)。
VIII 數(shù)據(jù)標注工程
本書是集體智慧的結(jié)晶,在此謹向付出辛勤勞動的各位作者致敬!書
中難免會有不當之處,請讀者不吝賜教。我的郵箱:gloud@126.com,微信
公眾號:劉鵬看未來(lpoutlook)。
劉鵬 教授
于南京大數(shù)據(jù)研究院
2019 年1 月1 日
劉鵬 清華大學博士畢業(yè),F(xiàn)任中國大數(shù)據(jù)技術(shù)與應用聯(lián)盟副理事長、中國大數(shù)據(jù)應用聯(lián)盟人工智能委員會主任、中國云計算專家咨詢委員會專家委員、工業(yè)和信息化部云計算研究中心專家。
第1章 數(shù)據(jù)標注概述…………………………………………1
1.1 數(shù)據(jù)標注的起源與發(fā)展…………………………………………1
1.1.1 什么是數(shù)據(jù)標注 …………………………………………3
1.1.2 數(shù)據(jù)標注分類概述 ………………………………………4
1.1.3 數(shù)據(jù)標注流程概述 ………………………………………6
1.2 數(shù)據(jù)標注的應用場景……………………………………… 7
1.2.1 出行行業(yè) …………………………………………………7
1.2.2 金融行業(yè) …………………………………………………8
1.2.3 醫(yī)療行業(yè) …………………………………………………8
1.2.4 家居行業(yè) …………………………………………………8
1.2.5 安防行業(yè) …………………………………………………9
1.2.6 公共服務 …………………………………………………9
1.2.7 電子商務 …………………………………………………10
1.3 有多少智能,就有多少人工……………………………………10
1.3.1 有監(jiān)督的機器學習 ………………………………………10
1.3.2 最后一批人工智能的老師 ……………………………11
1.4 數(shù)據(jù)越多,智能越好……………………………………………12
1.5 作業(yè)與練習………………………………………………………14
參考文獻… ……………………………………………………………14
第2章 數(shù)據(jù)采集與清洗………………………………………16
2.1 標注對象…………………………………………………………16
2.1.1 主要的數(shù)據(jù)來源 …………………………………………16
2.1.2 常見的標注數(shù)據(jù) …………………………………………17
X 數(shù)據(jù)標注工程
2.2 數(shù)據(jù)采集………………………………………………………… 18
2.2.1 數(shù)據(jù)采集方法 …………………………………………… 18
2.2.2 數(shù)據(jù)采集流程 …………………………………………… 19
2.2.3 標注數(shù)據(jù)采集 …………………………………………… 20
2.3 數(shù)據(jù)清洗…………………………………………………………23
2.3.1 數(shù)據(jù)清洗方法 …………………………………………… 24
2.3.2 數(shù)據(jù)清洗流程 …………………………………………… 26
2.3.3 MapReduce 數(shù)據(jù)去重 …………………………………… 26
2.4 作業(yè)與練習………………………………………………………28
參考文獻… ……………………………………………………………28
第3 章 數(shù)據(jù)標注分類…………………………………………29
3.1 圖像標注…………………………………………………………29
3.1.1 什么是圖像標注 ………………………………………… 29
3.1.2 圖像標注應用領域 ……………………………………… 30
3.2 語音標注…………………………………………………………35
3.2.1 什么是語音標注 ………………………………………… 35
3.2.2 客服錄音數(shù)據(jù)標注規(guī)范 ………………………………… 35
3.3 文本標注…………………………………………………………38
3.3.1 什么是文本標注 ………………………………………… 38
3.3.2 文本標注應用領域 ……………………………………… 38
3.4 作業(yè)與練習……………………………………………………… 41
參考文獻… …………………………………………………………… 41
第4 章 數(shù)據(jù)標注質(zhì)量檢驗……………………………………42
4.1 數(shù)據(jù)質(zhì)量影響算法效果…………………………………………42
4.2 數(shù)據(jù)標注質(zhì)量標準………………………………………………44
4.2.1 圖像標注質(zhì)量標準 ……………………………………… 44
4.2.2 語音標注質(zhì)量標準 ……………………………………… 47
4.2.3 文本標注質(zhì)量標準 ……………………………………… 48
4.3 數(shù)據(jù)標注質(zhì)量檢驗方法…………………………………………48
4.3.1 實時檢驗 ………………………………………………… 48
目 錄XI
4.3.2 全樣檢驗 ………………………………………………… 50
4.3.3 抽樣檢驗 ………………………………………………… 50
4.4 作業(yè)與練習………………………………………………………53
參考文獻… ……………………………………………………………53
第5 章 數(shù)據(jù)標注管理………………………………………… 55
5.1 數(shù)據(jù)標注工廠設計………………………………………………55
5.2 數(shù)據(jù)標注管理架構(gòu)………………………………………………59
5.3 數(shù)據(jù)安全管理與質(zhì)量管理體系…………………………………60
5.3.1 數(shù)據(jù)存儲安全管理要求 ………………………………… 60
5.3.2 工廠人員行為管理 ……………………………………… 61
5.3.3 溯源體系建設 …………………………………………… 61
5.3.4 質(zhì)量管理體系建設 ……………………………………… 62
5.4 數(shù)據(jù)標注項目評估………………………………………………63
5.5 數(shù)據(jù)標注訂單管理………………………………………………64
5.6 數(shù)據(jù)標注客戶關(guān)系管理…………………………………………65
5.7 作業(yè)與練習………………………………………………………66
參考文獻… ……………………………………………………………66
第6 章 數(shù)據(jù)標注應用…………………………………………68
6.1 自動駕駛…………………………………………………………68
6.1.1 自動駕駛的發(fā)展 ………………………………………… 68
6.1.2 自動駕駛的9 種數(shù)據(jù)標注 ……………………………… 70
6.2 智能安防…………………………………………………………75
6.2.1 智能安防的發(fā)展分析 …………………………………… 75
6.2.2 智能安防的5 種數(shù)據(jù)標注 ……………………………… 77
6.3 智能醫(yī)療…………………………………………………………80
6.3.1 智能醫(yī)療的發(fā)展 ………………………………………… 80
6.3.2 智能醫(yī)療應用的4 種數(shù)據(jù)標注 ………………………… 80
6.4 作業(yè)與練習………………………………………………………82
參考文獻… ……………………………………………………………83
XII 數(shù)據(jù)標注工程
第7 章 數(shù)據(jù)標注實戰(zhàn)…………………………………………84
7.1 實戰(zhàn)環(huán)境搭建……………………………………………………84
7.1.1 標注工具安裝環(huán)境搭建 ………………………………… 84
7.1.2 LabelImg 標框標注工具的使用方法 …………………… 92
7.1.3 Labelme 工具的安裝與使用方法 ……………………… 100
7.2 醫(yī)療影像標注………………………………………………… 104
7.3 遙感影像標注………………………………………………… 106
7.4 車牌圖像標注………………………………………………… 109
7.4.1 車牌圖像標框標注 …………………………………… 109
7.4.2 車牌圖像分類標注 …………………………………… 110
7.5 人像數(shù)據(jù)標注………………………………………………… 113
7.5.1 行人圖像標注 ………………………………………… 113
7.5.2 人臉數(shù)據(jù)標注 ………………………………………… 116
7.6 作業(yè)與練習…………………………………………………… 121
參考文獻… ………………………………………………………… 121
附錄 大數(shù)據(jù)實驗平臺(數(shù)據(jù)標注版)… ………………… 122