讓計算機自動處理文字一直以來都是我們工作中的重要訴求,而文字的表現(xiàn)形式是多樣的,目前,單純使用自然語言處理技術(shù)已無法滿足復雜的實際工作場景的需求。本書詳細介紹了達觀數(shù)據(jù)多年來在智能文本處理領(lǐng)域的實戰(zhàn)經(jīng)驗,從核心技術(shù)、相關(guān)產(chǎn)品、行業(yè)場景案例等多角度出發(fā),幫助讀者全面理解智能文本處理技術(shù)的意義和價值。全書分為三大部分:第一部分介紹智能文本處理的基礎(chǔ)知識、意義和相關(guān)核心技術(shù);第二部分介紹智能文本處理項目實施經(jīng)驗以及在不同場景和產(chǎn)品中的應(yīng)用;第三部分總結(jié)達觀智能文本處理技術(shù)與不同行業(yè)場景的結(jié)合,供各行業(yè)有智能文本處理需求的讀者參考。
1.全面介紹智能文本處理相關(guān)技術(shù)場景。理論部分除傳統(tǒng)NLP技術(shù)外,詳細講解多個關(guān)于文檔智能處理的特色技術(shù)。
2.實踐部分以包括達觀數(shù)據(jù)在內(nèi)多個專業(yè)企業(yè)的相關(guān)產(chǎn)品項目經(jīng)驗為基礎(chǔ),介紹了眾多行業(yè)、場景中的技術(shù)產(chǎn)品落地工作,具有很高的參考價值。
3.本書匯集了達觀數(shù)據(jù)在智能文本處理領(lǐng)域深耕多年的經(jīng)驗結(jié)晶,為廣大人工智能領(lǐng)域的從業(yè)者提供豐富詳實的理論與實踐支持。
達觀數(shù)據(jù)專注于智能文本處理技術(shù),是行業(yè)內(nèi)專精特新“小巨人”企業(yè),也曾榮獲中國人工智能領(lǐng)域獎項“吳文俊人工智能獎”。達觀數(shù)據(jù)開發(fā)的“曹植”大語言模型基于該企業(yè)長期積累的技術(shù)和經(jīng)驗,能夠為大型企業(yè)和機構(gòu)提供文檔智能審閱、智能知識管理、知識搜索與問答、文檔智能寫作、智能推薦、辦公流程自動化等服務(wù)。目前,達觀數(shù)據(jù)在行業(yè)內(nèi)市場占有率排名靠前,案例數(shù)量眾多,已幫助數(shù)百家企業(yè)提高生成效率、降低成本、提升業(yè)務(wù)合規(guī)性,助力企業(yè)實現(xiàn)數(shù)字化轉(zhuǎn)型,提升競爭力和創(chuàng)新能力。
第 一部 基礎(chǔ)知識
第 1章 智能文本處理概覽 2
1.1 什么是智能文本處理 2
1.1.1 智能文本處理概念 2
1.1.2 智能文本處理技術(shù) 5
1.1.3 智能文本處理的價值 7
1.2 NLP技術(shù)簡介 8
1.2.1 基本概念 9
1.2.2 文本自動處理層次劃分 11
1.2.3 研究現(xiàn)狀及主要方法 15
1.3 書面文本處理和短文本處理 17
1.3.1 不同處理類型 17
1.3.2 書面文本應(yīng)用舉例 19
1.3.3 短文本應(yīng)用舉例 22
1.3.4 處理差異比較 26
1.4 機器學習與NLP 28
1.4.1 機器學習的基本概念與歷史 28
1.4.2 常見的機器學習任務(wù)與方法 33
1.4.3 常見機器學習問題與NLP 34
1.4.4 實戰(zhàn):如何使用機器學習方法檢測垃圾郵件 39
1.5 深度學習與NLP 44
1.5.1 深度學習和傳統(tǒng)機器學習的差別 44
1.5.2 深度學習對NLP的推進 51
1.5.3 深度學習研究在NLP中的局限性 54
第 2章 NLP技術(shù)概覽 59
2.1 語言模型 59
2.1.1 語言模型基本概念 59
2.1.2 N-gram語言模型 61
2.1.3 神經(jīng)網(wǎng)絡(luò)語言模型 63
2.1.4 大規(guī)模預訓練語言模型 68
2.2 分詞與詞性標注 71
2.2.1 概述 71
2.2.2 分詞技術(shù)詳解 73
2.2.3 詞性識別詳解 76
2.3 NER 78
2.3.1 基本概念 78
2.3.2 基于規(guī)則的NER 81
2.3.3 基于序列標注的NER 83
2.3.4 數(shù)據(jù)增強方法 86
2.4 文本分類概述 88
2.4.1 文本分類任務(wù)的基本定義 88
2.4.2 基于機器學習的文本分類 89
2.4.3 基于深度學習的文本分類 92
2.4.4 文本分類算法評估 98
2.4.5 實踐經(jīng)驗與技術(shù)進階 100
2.5 指代消解 102
2.5.1 基本概念 102
2.5.2 指代消解技術(shù)發(fā)展 104
2.5.3 基于二元分類的機器學習方法 107
2.5.4 基于端到端的神經(jīng)網(wǎng)絡(luò)方法 108
2.5.5 基于自注意力機制的無監(jiān)督方法 111
2.6 NLG 113
2.6.1 應(yīng)用場景 113
2.6.2 文本摘要 114
2.6.3 機器翻譯 118
2.6.4 圖像生成文本 120
2.6.5 NLG評估方法 123
第3章 書面文本處理關(guān)鍵技術(shù) 124
3.1 文檔格式解析技術(shù) 124
3.1.1 Word格式解析 124
3.1.2 PDF格式解析 126
3.1.3 其他格式解析 131
3.2 文檔版面分析技術(shù) 132
3.2.1 版面分析簡介及發(fā)展歷程 133
3.2.2 基于啟發(fā)式規(guī)則的版面分析技術(shù) 134
3.2.3 基于機器學習的版面分析技術(shù) 136
3.2.4 基于深度學習的版面分析技術(shù) 136
3.2.5 版面分析最佳實踐 142
3.3 文檔表格解析技術(shù) 145
3.3.1 表格解析技術(shù)背景介紹 145
3.3.2 表格類型劃分 148
3.3.3 區(qū)域檢測技術(shù) 148
3.3.4 表格結(jié)構(gòu)識別 150
3.3.5 表格解析最佳實踐分享 153
3.4 光學字符識別技術(shù) 155
3.4.1 OCR技術(shù)簡介及發(fā)展歷程 156
3.4.2 OCR核心技術(shù) 157
3.4.3 文檔處理中的應(yīng)用和實踐 167
3.5 文檔多模態(tài)技術(shù) 171
3.5.1 多模態(tài)介紹 171
3.5.2 多模態(tài)的主要任務(wù) 173
3.5.3 文檔多模態(tài)的主要應(yīng)用 178
第二部分 項目覆蓋場景
第4章 產(chǎn)品技術(shù)實踐落地 184
4.1 項目團隊搭建 184
4.2 AI項目技術(shù)實現(xiàn)路徑 187
4.2.1 歸一化處理 188
4.2.2 字段分析處理 188
4.2.3 序列標注抽取 188
4.2.4 深度學習抽取 189
4.2.5 表格抽取 189
4.2.6 策略合并 189
4.2.7 人工規(guī)則 189
4.3 AI項目模型交付步驟 190
4.3.1 數(shù)據(jù)準備 190
4.3.2 模型訓練與調(diào)試 193
4.4 項目實施管理 195
4.4.1 項目實施階段分解 195
4.4.2 項目規(guī)劃階段 196
4.4.3 項目執(zhí)行階段 196
4.4.4 項目驗收階段 198
4.4.5 項目監(jiān)控 199
第5章 聊天機器人場景 200
5.1 聊天機器人概述 200
5.1.1 聊天機器人基本概念 200
5.1.2 聊天機器人類型 201
5.2 核心技術(shù)詳解 201
5.2.1 常見系統(tǒng)架構(gòu) 201
5.2.2 對話引擎 204
5.3 應(yīng)用場景 206
5.3.1 知識助手 206
5.3.2 智能客服 209
第6章 智能文檔處理場景 211
6.1 智能文檔處理場景概覽 211
6.1.1 智能文檔處理的內(nèi)容 211
6.1.2 智能文檔產(chǎn)品的類型 212
6.2 智能文檔抽取產(chǎn)品 212
6.2.1 文檔識別與解析 213
6.2.2 圖像結(jié)構(gòu)化抽取 215
6.2.3 文檔結(jié)構(gòu)化抽取 219
6.2.4 智能文檔抽取場景介紹 222
6.3 智能文檔審核產(chǎn)品 225
6.3.1 文檔風險審核 225
6.3.2 智能文檔比對 229
6.3.3 智能文檔審核場景 232
6.4 智能文檔寫作產(chǎn)品 234
6.4.1 智能文檔寫作產(chǎn)品介紹 235
6.4.2 智能文檔寫作場景介紹 238
第7章 知識圖譜場景 239
7.1 知識圖譜概念 239
7.1.1 知識圖譜介紹 239
7.1.2 知識圖譜類型 242
7.1.3 系統(tǒng)架構(gòu)實踐 243
7.2 知識圖譜核心技術(shù) 246
7.2.1 知識圖譜表示 246
7.2.2 知識圖譜存儲與構(gòu)建 248
7.2.3 知識融合和知識推理 251
7.3 知識圖譜應(yīng)用 253
7.3.1 知識圖譜問答 253
7.3.2 故障分析 256
7.3.3 語義檢索和智能決策 258
第8章 用戶體驗管理場景 260
8.1 為什么要做用戶體驗管理 260
8.1.1 為什么要做好用戶體驗管理 260
8.1.2 用戶體驗管理亟須革新調(diào)研方式 261
8.2 什么是用戶體驗管理 261
8.2.1 用戶體驗管理的概念 262
8.2.2 用戶體驗管理涉及的數(shù)據(jù)來源 263
8.2.3 用戶體驗管理涉及的關(guān)鍵技術(shù) 265
8.3 用戶體驗管理的典型應(yīng)用場景 269
8.3.1 賦能產(chǎn)品企劃設(shè)計 269
8.3.2 促進客戶關(guān)系維系 273
8.3.3 助力品牌傳播 274
8.4 用戶體驗管理產(chǎn)業(yè)實踐——以某制造業(yè)客戶為例 279
8.4.1 案例項目背景 279
8.4.2 用戶體驗管理解決方案 279
8.4.3 用戶體驗管理關(guān)鍵能力 285
8.4.4 業(yè)務(wù)價值 286
第9章 搜索推薦場景 288
9.1 文本處理技術(shù)在智能搜索中的應(yīng)用 288
9.1.1 智能搜索概述 288
9.1.2 智能搜索系統(tǒng)架構(gòu) 290
9.1.3 智能搜索中的文本挖掘算法 293
9.2 文本處理技術(shù)在智能推薦中的應(yīng)用 296
9.2.1 智能推薦概述 296
9.2.2 智能推薦系統(tǒng)架構(gòu) 298
9.2.3 智能推薦中的文本挖掘算法 301
第 10章 辦公機器人場景 304
10.1 辦公機器人介紹 304
10.1.1 什么是辦公機器人 304
10.1.2 辦公機器人的組成 305
10.2 智能文本處理技術(shù)與辦公機器人的結(jié)合 306
10.2.1 智能文本處理拓展了辦公機器人的能力邊界 306
10.2.2 辦公機器人中的智能文本處理技術(shù) 307
10.3 智能文本處理機器人應(yīng)用場景示例 307
10.3.1 供應(yīng)商準入管理場景 307
10.3.2 企業(yè)招聘場景 309
10.3.3 企業(yè)文檔管理場景 311
10.3.4 證券業(yè)文檔審核場景 313
10.3.5 文檔寫作場景 315
第 11章 AIGC與智能寫作場景 317
11.1 智能寫作任務(wù) 317
11.1.1 智能寫作應(yīng)用場景 317
11.1.2 智能寫作技術(shù)發(fā)展脈絡(luò) 317
11.2 基于RNN Seq2Seq的文本生成 318
11.3 文本生成前沿技術(shù) 319
11.3.1 UniLM 319
11.3.2 T5 321
11.3.3 BART 322
11.3.4 GPT 324
11.3.5 GPT-2 325
11.3.6 GPT-3 325
11.3.7 InstructGPT和ChatGPT 325
11.4 智能寫作算法評估 327
11.4.1 基于詞匯 328
11.4.2 基于語義 328
11.4.3 公開數(shù)據(jù)集 329
11.5 技術(shù)挑戰(zhàn)與展望 329
第三部分 行業(yè)案例經(jīng)驗
第 12章 銀行業(yè)與智能文本處理 332
12.1 銀行業(yè)務(wù)場景介紹 332
12.2 銀行業(yè)數(shù)字化轉(zhuǎn)型 333
12.2.1 銀行業(yè)數(shù)字化轉(zhuǎn)型現(xiàn)狀 333
12.2.2 銀行業(yè)數(shù)字化轉(zhuǎn)型思路 333
12.3 銀行業(yè)落地項目案例介紹 334
12.3.1 智慧信貸案例介紹 334
12.3.2 國際業(yè)務(wù)中的智能審單案例介紹 339
12.3.3 智能審貸案例介紹 342
12.3.4 RPA+IDP在銀行業(yè)中的應(yīng)用案例介紹 344
第 13章 證券業(yè)與智能文本處理 347
13.1 證券業(yè)數(shù)字化轉(zhuǎn)型現(xiàn)狀 347
13.1.1 IT投入不足 347
13.1.2 人才支撐不足 349
13.1.3 業(yè)務(wù)與技術(shù)的融合不足 350
13.1.4 證券業(yè)數(shù)字化轉(zhuǎn)型思路 350
13.2 證券業(yè)的文本處理應(yīng)用場景 350
13.2.1 經(jīng)紀業(yè)務(wù):智能資訊 350
13.2.2 資產(chǎn)托管業(yè)務(wù):智能文檔處理 352
13.2.3 投資銀行業(yè)務(wù):智能底稿系統(tǒng) 353
13.2.4 投資銀行業(yè)務(wù):銀行流水智能核查 356
13.2.5 投資銀行業(yè)務(wù):申報材料智能審核 358
13.2.6 投研業(yè)務(wù):智能投研一體化管理平臺 360
第 14章 保險業(yè)與智能文本處理 366
14.1 行業(yè)背景與現(xiàn)狀 366
14.2 數(shù)字化建設(shè)思路 367
14.2.1 科技與保險深度融合 367
14.2.2 開展全域數(shù)字化建設(shè) 367
14.3 智能解決方案 369
14.3.1 智慧營銷 369
14.3.2 醫(yī)療票據(jù)識別 372
14.3.3 智慧運營管理 375
14.3.4 客服語義分析 376
14.3.5 智能知識管理 377
第 15章 大型企業(yè)創(chuàng)新應(yīng)用實戰(zhàn) 383
15.1 大型企業(yè)科技創(chuàng)新前景與挑戰(zhàn) 383
15.1.1 創(chuàng)新應(yīng)用背景 383
15.1.2 數(shù)字化轉(zhuǎn)型難點 384
15.1.3 如何做好人工智能項目 385
15.2 人工智能技術(shù)與業(yè)務(wù)融合場景 386
15.2.1 法務(wù)智能輔助審核 386
15.2.2 智能報關(guān)票據(jù)審核 391
15.2.3 商務(wù)智能詢報價 393
15.3 行業(yè)落地案例分享 394
15.3.1 某頭部安防企業(yè)智能文本審閱系統(tǒng)項目 394
15.3.2 某大型報關(guān)行智能數(shù)據(jù)處理系統(tǒng) 395
15.3.3 某大型工業(yè)品超市智能詢報價系統(tǒng) 397
第 16章 智能制造與智能文本處理 399
16.1 智能制造中的質(zhì)量與可靠性工程 399
16.1.1 智能制造 399
16.1.2 質(zhì)量與可靠性工程 400
16.1.3 FMEA 401
16.2 FMEA知識圖譜 404
16.2.1 FMEA知識圖譜的定義與價值 404
16.2.2 FMEA知識圖譜模式 405
16.2.3 構(gòu)建FMEA知識圖譜 406
16.3 FMEA知識圖譜應(yīng)用示范 407
16.3.1 FMEA應(yīng)用功能介紹 407
16.3.2 具體應(yīng)用案例分析 413
第 17章 建工行業(yè)與智能文本處理 417
17.1 數(shù)字化建設(shè)思路 417
17.1.1 從一線業(yè)務(wù)角度思考 417
17.1.2 從高層管理角度思考 418
17.2 智能解決方案 419
17.2.1 智慧建工項目管理 419
17.2.2 智慧工程圖紙應(yīng)用 423
17.2.3 智慧建工標準圖譜 426
17.2.4 智慧建工城市背調(diào) 428
第 18章 互聯(lián)網(wǎng)及傳媒與智能文本處理 431
18.1 行業(yè)現(xiàn)狀與背景 431
18.2 互聯(lián)網(wǎng)及傳媒行業(yè)數(shù)字化轉(zhuǎn)型思路 431
18.2.1 充分挖掘信息,發(fā)揮數(shù)據(jù)價值 432
18.2.2 構(gòu)建關(guān)系網(wǎng)絡(luò),信息處理更智能 432
18.2.3 立足用戶需求,展現(xiàn)個性化內(nèi)容 432
18.3 互聯(lián)網(wǎng)及傳媒行業(yè)應(yīng)用場景 434
18.3.1 基于廣電行業(yè)分析文本解析的應(yīng)用價值 434
18.3.2 基于社交行業(yè)分析知識圖譜的應(yīng)用價值 437
18.3.3 基于資訊行業(yè)分析智能推薦的應(yīng)用價值 440
18.3.4 基于電商行業(yè)分析智能.搜索的應(yīng)用價值 441