青青热精品免费线视频观看,欧美亚洲另类丝袜自拍动漫,色偷偷噜噜噜亚洲男人

本書以Python自然語(yǔ)言處理的常用技術(shù)與真實(shí)案例相結(jié)合的方式，深入淺出地介紹Python自然語(yǔ)言處理的重要內(nèi)容。全書共12章，內(nèi)容包括緒論、語(yǔ)料庫(kù)、正則表達(dá)式、中文分詞技術(shù)、詞性標(biāo)注與命名實(shí)體識(shí)別、關(guān)鍵詞提取、文本向量化、文本分類與文本聚類、文本情感分析、NLP中的深度學(xué)習(xí)技術(shù)、智能問答系統(tǒng)，以及基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類。本書包含實(shí)訓(xùn)和課后習(xí)題，幫助讀者通過(guò)練習(xí)和操作實(shí)踐，鞏固所學(xué)內(nèi)容。本書可作為“1+X”證書制度試點(diǎn)工作中“大數(shù)據(jù)應(yīng)用開發(fā)（Python）”職業(yè)技能等級(jí)證書的教學(xué)和培訓(xùn)用書，也可以作為高校數(shù)據(jù)科學(xué)或人工智能相關(guān)專業(yè)的教材，還可作為機(jī)器學(xué)習(xí)愛好者的自學(xué)用書。

肖剛(1968-)，博士，教授。韓山師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院院長(zhǎng)、廣東省中小型企業(yè)大數(shù)據(jù)與智能化工程研究中心主任，華南師范大學(xué)、廣州大學(xué)兼職碩士生導(dǎo)師。中國(guó)醫(yī)學(xué)裝備協(xié)會(huì)磁共振成像裝備與技術(shù)專業(yè)委員會(huì)委員、廣東省生物醫(yī)學(xué)工程學(xué)會(huì)醫(yī)學(xué)信息工程分會(huì)委員、廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)、廣東省現(xiàn)場(chǎng)統(tǒng)計(jì)學(xué)會(huì)和廣東省計(jì)算數(shù)學(xué)學(xué)會(huì)理事，“泰迪杯”全國(guó)數(shù)據(jù)挖掘挑戰(zhàn)賽專家組成員。主要從事應(yīng)用數(shù)學(xué)、數(shù)據(jù)挖掘和醫(yī)學(xué)影像學(xué)的研究工作以及創(chuàng)新創(chuàng)業(yè)競(jìng)賽、數(shù)學(xué)建模競(jìng)賽、數(shù)據(jù)挖掘挑戰(zhàn)賽的教學(xué)與指導(dǎo)工作。主持廣東省自然科學(xué)基金項(xiàng)目2項(xiàng)，主持廣東省教育廳項(xiàng)目4項(xiàng)。2016年廣東省科學(xué)技術(shù)進(jìn)步獎(jiǎng)三等獎(jiǎng)、2018年汕頭科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、2019年廣東省科學(xué)技術(shù)進(jìn)步獎(jiǎng)優(yōu)秀獎(jiǎng)以及2019年廣東省教學(xué)成果（基礎(chǔ)教育）一等獎(jiǎng)主要成員。張良均。高級(jí)信息系統(tǒng)項(xiàng)目管理師，泰迪杯全國(guó)大學(xué)生數(shù)據(jù)挖掘競(jìng)賽（www.tipdm.org）的發(fā)起人。華南師范大學(xué)、廣東工業(yè)大學(xué)兼職教授，廣東省工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)理事。兼有大型高科技企業(yè)和高校的工作經(jīng)歷，主要從事大數(shù)據(jù)挖掘及其應(yīng)用的策劃、研發(fā)及咨詢培訓(xùn)。全國(guó)計(jì)算機(jī)技術(shù)與軟件專業(yè)技術(shù)資格（水平）考試?yán)^續(xù)教育和CDA數(shù)據(jù)分析師培訓(xùn)講師。發(fā)表數(shù)據(jù)挖掘相關(guān)論文數(shù)二十余篇，已取得國(guó)家發(fā)明專利12項(xiàng)，主編圖書《神經(jīng)網(wǎng)絡(luò)實(shí)用教程》、《數(shù)據(jù)挖掘:實(shí)用案例分析》、《MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》等9本圖書，主持并完成科技項(xiàng)目9項(xiàng)。獲得SAS、SPSS數(shù)據(jù)挖掘認(rèn)證及Hadoop開發(fā)工程師證書，具有電力、電信、銀行、制造企業(yè)、電子商務(wù)和電子政務(wù)的項(xiàng)目經(jīng)驗(yàn)和行業(yè)背景。

第 1章緒論　1 1.1　自然語(yǔ)言處理概述　1 1.1.1　NLP的發(fā)展歷程　2 1.1.2　NLP研究?jī)?nèi)容　3 1.1.3　NLP的幾個(gè)應(yīng)用場(chǎng)景　4 1.1.4　NLP與人工智能技術(shù)　5 1.1.5　學(xué)習(xí)NLP的難點(diǎn)　6 1.2　NLP基本流程　6 1.2.1　語(yǔ)料獲取　6 1.2.2　語(yǔ)料預(yù)處理　7 1.2.3　文本向量化　7 1.2.4　模型構(gòu)建　7 1.2.5　模型訓(xùn)練　7 1.2.6　模型評(píng)價(jià)　8 1.3　NLP的開發(fā)環(huán)境　8 1.3.1　Anaconda安裝　8 1.3.2　Anaconda應(yīng)用介紹　9 小結(jié)　14 課后習(xí)題　14 第　2章語(yǔ)料庫(kù)　16 2.1　語(yǔ)料庫(kù)概述　16 2.1.1　語(yǔ)料庫(kù)簡(jiǎn)介　16 2.1.2　語(yǔ)料庫(kù)的用途　17 2.2　語(yǔ)料庫(kù)的種類與構(gòu)建原則　17 2.2.1　語(yǔ)料庫(kù)的種類　17 2.2.2　語(yǔ)料庫(kù)的構(gòu)建原則　18 2.3　NLTK　19 2.3.1　NLTK簡(jiǎn)介　19 2.3.2　安裝步驟　19 2.3.3　NLTK中函數(shù)的使用　21 2.4　語(yǔ)料庫(kù)的獲取　23 2.4.1　獲取NLTK語(yǔ)料庫(kù)　23 2.4.2　獲取網(wǎng)絡(luò)在線語(yǔ)料庫(kù)　30 2.5　任務(wù)：語(yǔ)料庫(kù)的構(gòu)建與應(yīng)用　32 2.5.1　構(gòu)建作品集語(yǔ)料庫(kù)　32 2.5.2　武俠小說(shuō)語(yǔ)料庫(kù)分析　33 小結(jié)　35 實(shí)訓(xùn)　35 實(shí)訓(xùn)1　構(gòu)建語(yǔ)料庫(kù)　35 實(shí)訓(xùn)2　《七劍下天山》語(yǔ)料庫(kù)分析　36 課后習(xí)題　36 第3章　正則表達(dá)式　38 3.1　正則表達(dá)式的概念　38 3.1.1　正則表達(dá)式函數(shù)　38 3.1.2　正則表達(dá)式的元字符　40 3.2　任務(wù)：正則表達(dá)式的應(yīng)用　43 3.2.1　《西游記》字符過(guò)濾　43 3.2.2　自動(dòng)提取人名與電話號(hào)碼　44 3.2.3　提取網(wǎng)頁(yè)標(biāo)簽信息　45 小結(jié)　46 實(shí)訓(xùn)　46 實(shí)訓(xùn)1　過(guò)濾《三國(guó)志》中的字符　46 實(shí)訓(xùn)2　提取地名與郵編　46 實(shí)訓(xùn)3　提取網(wǎng)頁(yè)標(biāo)簽中的文本　46 課后習(xí)題　47 第4章　中文分詞技術(shù)　48 4.1　中文分詞簡(jiǎn)介　48 4.2　基于規(guī)則分詞　48 4.2.1　正向最大匹配法　49 4.2.2　逆向最大匹配法　49 4.2.3　雙向最大匹配法　50 4.3　基于統(tǒng)計(jì)分詞　51 4.3.1　n元語(yǔ)法模型　51 4.3.2　隱馬爾可夫模型相關(guān)概念　55 4.4　中文分詞工具jieba　62 4.4.1　基本步驟　63 4.4.2　分詞模式　63 4.5　任務(wù)：中文分詞的應(yīng)用　64 4.5.1　HMM中文分詞　64 4.5.2　提取新聞文本中的高頻詞　68 小結(jié)　69 實(shí)訓(xùn)　70 實(shí)訓(xùn)1　使用HMM進(jìn)行中文分詞　70 實(shí)訓(xùn)2　提取文本中的高頻詞　70 課后習(xí)題　70 第5章　詞性標(biāo)注與命名實(shí)體識(shí)別　72 5.1　詞性標(biāo)注　72 5.1.1　詞性標(biāo)注簡(jiǎn)介　72 5.1.2　詞性標(biāo)注規(guī)范　73 5.1.3　jieba詞性標(biāo)注　74 5.2　命名實(shí)體識(shí)別　77 5.2.1　命名實(shí)體識(shí)別簡(jiǎn)介　77 5.2.2　CRF模型　78 5.3　任務(wù)：中文命名實(shí)體識(shí)別　82 5.3.1　sklearn-crfsuite庫(kù)簡(jiǎn)介　83 5.3.2　命名實(shí)體識(shí)別流程　83 小結(jié)　90 實(shí)訓(xùn)　中文命名實(shí)體識(shí)別　90 課后習(xí)題　91 第6章　關(guān)鍵詞提取　92 6.1　關(guān)鍵詞提取技術(shù)簡(jiǎn)介　92 6.2　關(guān)鍵詞提取算法　93 6.2.1　TF-IDF算法　93 6.2.2　TextRank算法　94 6.2.3　LSA與LDA算法　96 6.3　任務(wù)：自動(dòng)提取文本關(guān)鍵詞　103 小結(jié)　109 實(shí)訓(xùn)　109 實(shí)訓(xùn)1　文本預(yù)處理　109 實(shí)訓(xùn)2　使用TF-IDF算法提取關(guān)鍵詞　109 實(shí)訓(xùn)3　使用TextRank算法提取關(guān)鍵詞　110 實(shí)訓(xùn)4　使用LSA算法提取關(guān)鍵詞　110 課后習(xí)題　110 第7章　文本向量化　112 7.1　文本向量化簡(jiǎn)介　112 7.2　文本離散表示　113 7.2.1　獨(dú)熱表示　113 7.2.2　BOW模型　113 7.2.3　TF-IDF表示　114 7.3　文本分布式表示　114 7.3.1　Word2Vec模型　114 7.3.2　Doc2Vec模型　118 7.4　任務(wù)：文本相似度計(jì)算　120 7.4.1　Word2Vec詞向量的訓(xùn)練　121 7.4.2　Doc2Vec段落向量的訓(xùn)練　122 7.4.3　計(jì)算文本的相似度　124 小結(jié)　128 實(shí)訓(xùn)　128 實(shí)訓(xùn)1　實(shí)現(xiàn)基于Word2Vec模型的新聞?wù)Z料詞向量訓(xùn)練　128 實(shí)訓(xùn)2　實(shí)現(xiàn)基于Doc2Vec模型的新聞?wù)Z料段落向量訓(xùn)練　128 實(shí)訓(xùn)3　使用Word2Vec模型和Doc2Vec模型計(jì)算新聞文本的相似度　129 課后習(xí)題　129 第8章　文本分類與文本聚類　131 8.1　文本挖掘簡(jiǎn)介　131 8.2　文本分類常用算法　132 8.3　文本聚類常用算法　133 8.4　文本分類與文本聚類的步驟　135 8.5　任務(wù)：垃圾短信分類　136 8.6　任務(wù)：新聞文本聚類　141 小結(jié)　144 實(shí)訓(xùn)　144 實(shí)訓(xùn)1　基于樸素貝葉斯的新聞分類　144 實(shí)訓(xùn)2　食品種類安全問題聚類分析　145 課后習(xí)題　145 第9章　文本情感分析　147 9.1　文本情感分析簡(jiǎn)介　147 9.1.1　文本情感分析的主要內(nèi)容　147 9.1.2　文本情感分析的常見應(yīng)用　148 9.2　情感分析的常用方法　149 9.2.1　基于情感詞典的方法　149 9.2.2　基于文本分類的方法　150 9.2.3　基于LDA主題模型的方法　151 9.3　任務(wù)：基于情感詞典的情感分析　151 9.4　任務(wù)：基于文本分類的情感分析　154 9.4.1　基于樸素貝葉斯分類的情感分析　154 9.4.2　基于SnowNLP庫(kù)的情感分析　156 9.5　任務(wù)：基于LDA主題模型的情感分析　157 9.5.1　數(shù)據(jù)處理　157 9.5.2　模型訓(xùn)練　158 9.5.3　結(jié)果分析　159 小結(jié)　160 實(shí)訓(xùn)　160 實(shí)訓(xùn)1　基于詞典的豆瓣評(píng)論文本情感分析　160 實(shí)訓(xùn)2　基于樸素貝葉斯算法的豆瓣評(píng)論文本情感分析　160 實(shí)訓(xùn)3　基于SnowNLP的豆瓣評(píng)論文本情感分析　161 實(shí)訓(xùn)4　基于LDA主題模型的豆瓣評(píng)論文本情感分析　161 課后習(xí)題　161 第　10章 NLP中的深度學(xué)習(xí)技術(shù)　163 10.1　循環(huán)神經(jīng)網(wǎng)絡(luò)概述　163 10.2　RNN結(jié)構(gòu)　164 10.2.1　多對(duì)一結(jié)構(gòu)　164 10.2.2　等長(zhǎng)的多對(duì)多結(jié)構(gòu)　164 10.2.3　非等長(zhǎng)結(jié)構(gòu)（Seq2Seq模型）　169 10.3　深度學(xué)習(xí)工具　171 10.3.1　TensorFlow簡(jiǎn)介　171 10.3.2　基于TensorFlow的深度學(xué)習(xí)庫(kù)Keras　172 10.4　任務(wù)：基于LSTM的文本分類與情感分析　172 10.4.1　文本分類　172 10.4.2　情感分析　181 10.5　任務(wù)：基于Seq2Seq的機(jī)器翻譯　185 10.5.1　語(yǔ)料預(yù)處理　185 10.5.2　構(gòu)建模型　188 10.5.3　定義優(yōu)化器和損失函數(shù)　191 10.5.4　訓(xùn)練模型　191 10.5.5　翻譯　194 小結(jié)　195 實(shí)訓(xùn)　195 實(shí)訓(xùn)1　實(shí)現(xiàn)基于LSTM模型的新聞分類　195 實(shí)訓(xùn)2　實(shí)現(xiàn)基于LSTM模型的攜程網(wǎng)評(píng)論情感分析　196 實(shí)訓(xùn)3　實(shí)現(xiàn)基于Seq2Seq和GPU的機(jī)器翻譯　196 課后習(xí)題　197 第　11章智能問答系統(tǒng)　198 11.1　智能問答系統(tǒng)簡(jiǎn)介　198 11.2　智能問答系統(tǒng)的主要組成部分　198 11.2.1　問題理解　199 11.2.2　知識(shí)檢索　199 11.2.3　答案生成　200 11.3　任務(wù)：基于Seq2Seq模型的聊天機(jī)器人　201 11.3.1　讀取語(yǔ)料庫(kù)　201 11.3.2　文本預(yù)處理　202 11.3.3　模型構(gòu)建　206 11.3.4　模型訓(xùn)練　211 11.3.5　模型評(píng)價(jià)　218 小結(jié)　218 實(shí)訓(xùn)　基于Seq2Seq模型的聊天機(jī)器人　218 課后習(xí)題　219 第　12章基于TipDM大數(shù)據(jù)挖掘建模平臺(tái)實(shí)現(xiàn)垃圾短信分類　220 12.1　平臺(tái)簡(jiǎn)介　220 12.1.1　實(shí)訓(xùn)庫(kù)　221 12.1.2　數(shù)據(jù)連接　222 12.1.3　實(shí)訓(xùn)數(shù)據(jù)　222 12.1.4　我的實(shí)訓(xùn)　223 12.1.5　系統(tǒng)算法　223 12.1.6　個(gè)人算法　225 12.2　實(shí)現(xiàn)垃圾短信分類　226 12.2.1　數(shù)據(jù)源配置　227 12.2.2　文本預(yù)處理　229 12.2.3　樸素貝葉斯分類模型　234 小結(jié)　235 實(shí)訓(xùn)　實(shí)現(xiàn)基于樸素貝葉斯的新聞分類　235 課后習(xí)題　236

你還可能感興趣

我要評(píng)論