本書以數(shù)據(jù)標注崗位需求為導(dǎo)向,由高校教師和多家一線數(shù)據(jù)標注企業(yè)的工程師聯(lián)合編寫。本書系統(tǒng)介紹了數(shù)據(jù)標注的發(fā)展、分類、規(guī)范及常用的數(shù)據(jù)標注工具的使用方法。本書對初學(xué)者了解數(shù)據(jù)標注行業(yè)的操作規(guī)范及未來數(shù)據(jù)標注人才培養(yǎng)要求起到積極的作用。本書內(nèi)容從實際數(shù)據(jù)標注工作出發(fā),采用“項目引導(dǎo)、實戰(zhàn)驅(qū)動”的理念編寫。本書包含配套教學(xué)視頻、教學(xué)課件,讀者可登錄華信教育資源網(wǎng)(www.hxedu.com.cn)免費下載。本書還提供配套數(shù)據(jù)標注實戰(zhàn)平臺,可供有需要的讀者使用。本書可作為大學(xué)本科和高職高專院校大數(shù)據(jù)技術(shù)與應(yīng)用專業(yè)相關(guān)課程的配套教材,也可作為各類計算機培訓(xùn)機構(gòu)的培訓(xùn)教材或相關(guān)愛好者的自學(xué)教材。
劉欣亮,河南科技大學(xué)信息工程學(xué)院、軟件學(xué)院副院長,河南科技大學(xué)優(yōu)秀教師,河南省精品課程負責(zé)人,曾獲河南省科技攻關(guān)二等獎,河南省教改項目一等獎。出版過多部圖書。
第1章 數(shù)據(jù)標注概述 1
1.1 數(shù)據(jù)標注發(fā)展簡史 1
1.1.1 數(shù)據(jù)標注行業(yè)的發(fā)展 1
1.1.2 國內(nèi)數(shù)據(jù)標注行業(yè)的發(fā)展現(xiàn)狀 5
1.2 數(shù)據(jù)標注定義及分類 6
1.2.1 數(shù)據(jù)標注的定義 6
1.2.2 數(shù)據(jù)標注的工作特點 7
1.2.3 數(shù)據(jù)標注的基本流程 7
1.2.4 數(shù)據(jù)標注的分類 8
1.3 數(shù)據(jù)標注的應(yīng)用領(lǐng)域 9
1.4 數(shù)據(jù)標注行業(yè)的運行模式 10
1.4.1 數(shù)據(jù)標注的特點 10
1.4.2 數(shù)據(jù)標注在人工智能中的地位 11
1.4.3 數(shù)據(jù)標注的運行模式 11
1.5 數(shù)據(jù)標注行業(yè)未來發(fā)展趨勢及挑戰(zhàn) 12
1.5.1 數(shù)據(jù)標注行業(yè)競爭加劇 12
1.5.2 政策的有力支持 12
1.5.3 面臨的問題和挑戰(zhàn) 13
1.5.4 數(shù)據(jù)標注行業(yè)的前景與發(fā)展 15
習(xí)題 15
第2章 數(shù)據(jù)的來龍去脈 16
2.1 認識數(shù)據(jù) 16
2.1.1 數(shù)和數(shù)據(jù)的區(qū)別 16
2.1.2 通信中數(shù)據(jù)的分類 16
2.1.3 計算機中數(shù)據(jù)的編碼 17
2.1.4 數(shù)據(jù)文件 17
2.2 數(shù)據(jù)采集 17
2.2.1 數(shù)據(jù)采集渠道 18
2.2.2 數(shù)據(jù)采集的注意事項 19
2.2.3 標注數(shù)據(jù)的采集案例 19
2.2.4 數(shù)據(jù)質(zhì)量 21
2.3 Python安裝與爬蟲采集數(shù)據(jù)案例 21
2.3.1 Python安裝與環(huán)境配置 21
2.3.2 網(wǎng)絡(luò)爬蟲采集數(shù)據(jù)案例 25
2.4 數(shù)據(jù)預(yù)處理 28
2.4.1 數(shù)據(jù)清洗 28
2.4.2 數(shù)據(jù)集成 35
2.4.3 數(shù)據(jù)歸約 36
2.4.4 數(shù)據(jù)變換 38
2.4.5 數(shù)據(jù)預(yù)處理案例 38
2.5 標注數(shù)據(jù) 42
2.5.1 標注數(shù)據(jù)的用途 42
2.5.2 使用標注數(shù)據(jù)訓(xùn)練算法的流程 43
2.6 數(shù)據(jù)分析與應(yīng)用 47
2.6.1 數(shù)據(jù)分析方法 47
2.6.2 數(shù)據(jù)可視化 48
2.6.3 數(shù)據(jù)分析與可視化案例 51
習(xí)題 58
第3章 數(shù)據(jù)標注基礎(chǔ)知識 60
3.1 計算機中數(shù)據(jù)的存儲方式 60
3.1.1 文件名 60
3.1.2 數(shù)據(jù)標注類型 61
3.1.3 文件的存儲方式 63
3.2 數(shù)據(jù)的編碼方式 63
3.2.1 字符編碼方式 64
3.2.2 二進制編碼方式 68
3.2.3 字符編碼方式和二進制編碼方式的比較 70
3.3 數(shù)據(jù)標注必須了解的知識 70
3.3.1 文本標注需要掌握的基礎(chǔ)知識 70
3.3.2 文本標注需要注意的問題 74
3.3.3 常用的文本處理工具 75
3.3.4 語音標注需要掌握的基礎(chǔ)知識 78
3.3.5 常用的語音處理工具 81
3.3.6 圖像標注需要掌握的基礎(chǔ)知識 84
3.3.7 常用的圖像處理工具 88
3.3.8 視頻標注需要掌握的基礎(chǔ)知識 90
3.3.9 常用的視頻處理工具 94
3.4 常用的數(shù)據(jù)標注工具 97
3.4.1 labelImg圖像標注工具 97
3.4.2 labelme圖像標注工具 99
3.4.3 支持多種類型的精靈標注助手 101
3.4.4 其他標注工具介紹 104
3.5 常見的數(shù)據(jù)標注結(jié)果文件格式 106
3.5.1 CSV文件格式 106
3.5.2 XML文件格式 107
3.5.3 JSON文件格式 110
3.5.4 數(shù)據(jù)標注的輔助工具 111
習(xí)題 113
第4章 數(shù)據(jù)標注員的職業(yè)素養(yǎng) 115
4.1 數(shù)據(jù)標注團隊的管理 115
4.1.1 數(shù)據(jù)標注團隊的基礎(chǔ)架構(gòu) 115
4.1.2 數(shù)據(jù)標注團隊的培訓(xùn)體系 117
4.1.3 數(shù)據(jù)標注團隊的管理 119
4.2 數(shù)據(jù)標注規(guī)則的重要性 120
4.2.1 數(shù)據(jù)標注規(guī)則 120
4.2.2 數(shù)據(jù)標注規(guī)則的特點 121
4.2.3 數(shù)據(jù)標注規(guī)則需要雙方溝通 125
4.2.4 數(shù)據(jù)標注規(guī)則需要數(shù)據(jù)標注員不斷學(xué)習(xí) 125
4.3 數(shù)據(jù)標注的質(zhì)檢 126
4.3.1 數(shù)據(jù)標注質(zhì)檢的重要性 126
4.3.2 常用的數(shù)據(jù)標注標準分類 127
4.4 數(shù)據(jù)標注員需要具備的職業(yè)素養(yǎng) 129
4.4.1 數(shù)據(jù)標注員的職業(yè)素養(yǎng) 130
4.4.2 持續(xù)的學(xué)習(xí)力是數(shù)據(jù)標注工作的基礎(chǔ) 131
4.4.3 細心是做好數(shù)據(jù)標注工作的保障 132
4.4.4 有耐心才能堅持工作在數(shù)據(jù)標注行業(yè) 132
4.4.5 擁有責(zé)任心才能換位思考做好數(shù)據(jù)標注工作 132
4.4.6 較強專注力可提高工作效率 133
4.4.7 團隊協(xié)作是一個數(shù)據(jù)標注團隊生存的保障 133
4.4.8 良好的溝通表達力能更為有效地進行數(shù)據(jù)標注工作 133
4.5 數(shù)據(jù)標注所需職業(yè)素養(yǎng)的培養(yǎng) 134
4.5.1 學(xué)習(xí)力的培養(yǎng) 134
4.5.2 細心的培養(yǎng) 135
4.5.3 耐心的培養(yǎng) 135
4.5.4 責(zé)任心的培養(yǎng) 136
4.5.5 專注力的培養(yǎng) 137
4.5.6 團隊合作鍛煉 138
4.5.7 鍛煉溝通表達能力 139
習(xí)題 140
第5章 數(shù)據(jù)標注實戰(zhàn) 143
5.1 如何成為合格的數(shù)據(jù)標注員 143
5.1.1 實戰(zhàn)一 團隊拓展小游戲 144
5.1.2 實戰(zhàn)二 熟悉數(shù)據(jù)標注規(guī)則 145
5.2 文本標注 149
5.2.1 實戰(zhàn)三 文本實體標注 150
5.2.2 實戰(zhàn)四 文本分類標注 152
5.3 語音標注 153
5.3.1 實戰(zhàn)五 語音數(shù)據(jù)轉(zhuǎn)寫標注 154
5.3.2 實戰(zhàn)六 語音數(shù)據(jù)情緒標注 157
5.4 圖像標注 159
5.4.1 實戰(zhàn)七 人臉拉框圖像標注 160
5.4.2 實戰(zhàn)八 人體框圖像標注 161
5.4.3 實戰(zhàn)九 手勢圖像標注 164
5.4.4 實戰(zhàn)十 人臉精確打點標注 167
5.4.5 實戰(zhàn)十一 道路場景語義分割標注 171
5.4.6 實戰(zhàn)十二 OCR轉(zhuǎn)寫標注 174
附錄A Python語法簡介 176
附錄B Anaconda安裝 180
附錄C labelImg安裝 184
附錄D labelme安裝 187
參考文獻 191