《自然語言處理的Python實踐》通過5章內容深入解讀了自然語言處理(NLP)的文本數(shù)據(jù)處理方法和行業(yè)實際應用。其中討論了文本數(shù)據(jù)的根本問題所在和在文本數(shù)據(jù)中如何提取信息、提取哪種信息等,同時通過第2~5章,重點講解了客戶服務行業(yè)、在線評論、銀行與金融服務及保險行業(yè)、虛擬助手四大NLP重點領域的實際應用方法,其中詳細解讀了意圖挖掘、基于ML的監(jiān)督學習、情感分析與挖掘、Word2Vec、CBOW、LSTM、編碼器-解碼器模型框架和當今NLP領域解決問題效果最好的BERT模型等關鍵技術方法。內容全面,案例真實。本書案例均直接深入到各行業(yè),讀者在閱讀學習過程中,能通過書中相應的代碼和案例思路,真正解決實際工作中遇到的問題。
本書適合各個行業(yè)自然語言處理方向的技術人員閱讀學習,也適合開設自然語言處理課程的院校師生及計算機專業(yè)教學參考使用。
吳偉國,無黨派人士。哈爾濱工業(yè)大學教授,博士生導師,機電控制及自動化學科工學博士,日本國立名古屋大學微系統(tǒng)工學博士后研究員。長期從事工業(yè)機器人、仿生仿人機器人及智能運動控制、人工智能、人工情感等方面研究。作為項目負責人先后主持完成國家自然科學基金、國家863計劃、國家重點實驗室、教育部歸國留學基金項目以及參與完成各類項目共10余項。主持“十三五”國家重點研發(fā)計劃項目課題、國家自然科學基金重點課題子課題各1項。發(fā)表學術論文80余篇,參編“十一五”國家級規(guī)劃教材1部,著有國家出版基金項目資助著作3部,以第1發(fā)明人獲發(fā)明專利權20項,獲部級科技進步一、二等獎各1項。
第1章 數(shù)據(jù)類型 001
1.1 搜索 002
1.2 評論 003
1.3 社交媒體中的帖子/博客 005
1.4 聊天數(shù)據(jù) 006
1.4.1 私人聊天 006
1.4.2 商務聊天和語音通話數(shù)據(jù) 007
1.5 SMS(短信)數(shù)據(jù) 008
1.6 內容數(shù)據(jù) 009
1.7 IVR(交互式語音應答)話語數(shù)據(jù) 010
1.8 數(shù)據(jù)中的有用信息 010
第2章 NLP在客戶服務中的應用 013
2.1 語音通話 014
2.2 聊天 015
2.3 票證數(shù)據(jù) 016
2.4 郵件數(shù)據(jù) 016
2.5 客戶需求 018
2.5.1 意圖挖掘 018
2.5.2 意圖理解的熱門詞匯 019
2.5.3 詞云 021
2.5.4 主題分類規(guī)則 024
2.6 基于機器學習的監(jiān)督學習 028
2.6.1 獲取人工標記的數(shù)據(jù) 028
2.6.2 分詞 030
2.6.3 文檔詞條矩陣 031
2.6.4 數(shù)據(jù)標準化 035
2.7 替換某些模式 036
2.8 識別并標注問題所在的行 040
2.9 熱門客戶查詢 041
2.10 熱門客戶滿意度(CSAT)驅動器 043
2.11 熱門凈推薦值(NPS)驅動器 045
2.12 深入了解銷售對話 050
2.12.1 銷售對話中的熱門產品 050
2.12.2 未交易的原因 051
2.12.3 調查評論分析 052
2.12.4 挖掘語音記錄 052
第3章 NLP在在線評論中的應用 059
3.1 情感分析 060
3.2 情感挖掘 061
3.3 方法1:基于詞典的方法 062
3.4 方法2:基于規(guī)則的方法 066
3.4.1 觀察結果1 066
3.4.2 觀察結果2 067
3.4.3 觀察結果3 067
3.4.4 觀察結果4 068
3.4.5 總體得分 069
3.4.6 處理觀察結果 070
3.4.7 情緒分析庫 085
3.5 方法3:基于機器學習的方法(神經網絡) 086
3.5.1 語料庫的特征 087
3.5.2 構建神經網絡 091
3.5.3 加以完善 093
3.6 屬性提取 093
3.6.1 步驟1:使用正則表達式進行規(guī)范化 095
3.6.2 步驟2:提取名詞形式 097
3.6.3 步驟3:創(chuàng)建映射文件 098
3.6.4 步驟4:將每個評論映射到屬性 100
3.6.5 步驟5:品牌分析 101
第4章 NLP在銀行、金融服務和保險業(yè)(BFSI)的應用 109
4.1 NLP之于風險控制 110
4.1.1 方法1:使用現(xiàn)有的庫 111
4.1.2 方法2:提取名詞短語 113
4.1.3 方法3:訓練自己的模型 115
4.1.4 模型應用 142
4.2 NLP在銀行、金融服務和保險業(yè)的其他應用案例 157
4.2.1 短信數(shù)據(jù) 157
4.2.2 銀行業(yè)的自然語言生成 158
第5章 NLP在虛擬助手中的應用 163
5.1 網絡機器人(Bot程序)種類 164
5.2 經典方法 165
5.2.1 LSTM概述 169
5.2.2 LSTM的應用 173
5.2.3 時間分布層 174
5.3 生成響應法 178
5.3.1 編碼器-解碼器模型框架 179
5.3.2 數(shù)據(jù)集 180
5.3.3 框架的實現(xiàn) 180
5.3.4 編碼器-解碼器模型框架的訓練 189
5.3.5 編碼器輸出 192
5.3.6 解碼器輸入 192
5.3.7 預處理 195
5.3.8 雙向LSTM 200
5.4 BERT(基于轉換器的雙向編碼表征) 202
5.4.1 語言模型和微調 202
5.4.2 BERT概述 203
5.4.3 微調BERT以構建分類器 208
5.5 構建網上對話機器人的更多細微差別 211
5.5.1 單輪對話和多輪對話的比較 211
5.5.2 多語言網上機器人 213