情感分析研究屬于自然語言處理領(lǐng)域的一個(gè)重要分支。在信息全球化背景下,情感分析研究從單語言逐步擴(kuò)展到多語言場(chǎng)景。本書分為上下兩篇,上篇為單語言情感分析,下篇為多語言情感分析,嘗試講清楚情感分析是什么,單語言和多語言情感分析應(yīng)該怎么做,情感分析需要具備哪些理論基礎(chǔ)、技術(shù)基礎(chǔ)和模型基礎(chǔ),多語言情感分析有哪些可用的語言資源,多語言情感分析未來的發(fā)展等問題。 本書能夠?yàn)槎嗾Z言自然語言處理和情感分析等領(lǐng)域的科研人員、從業(yè)者、在讀研究生提供入門理論指導(dǎo)和技術(shù)參考。
本書多語言情感分析的主題和內(nèi)容具有明顯的特色,內(nèi)容包括多語言情感分析領(lǐng)域的技術(shù)基礎(chǔ)、語言資源、以及作者針對(duì)多語言情感分析所提出的方法和模型等。能夠?yàn)槎嗾Z言情感分析、情感計(jì)算等領(lǐng)域的科研人員、從業(yè)者和在讀研究生提供入門理論指導(dǎo)和技術(shù)參考。
很高興看到《多語言情感分析及其應(yīng)用》出版。
當(dāng)前,新一輪技術(shù)變革正深刻影響并改變著人們的生產(chǎn)與生活方式。全球化背景下的信息呈現(xiàn)多語言信息模態(tài),微博、Twitter、Facebook等社交媒體上不同國(guó)家、不同語言的互聯(lián)網(wǎng)用戶發(fā)布的多語言信息交織在一起,構(gòu)成龐大的多語言信息。多語言情感分析可以挖掘多語言信息背后蘊(yùn)含的用戶觀點(diǎn)、態(tài)度立場(chǎng)和情感傾向,對(duì)于實(shí)現(xiàn)跨語言媒體智能、構(gòu)建多語言認(rèn)知智能體系有著舉足輕重的作用。
多語言情感分析從多語言信息中挖掘出人們的觀點(diǎn)和態(tài)度,因而有著鮮明的時(shí)代特色和廣闊的應(yīng)用前景,在網(wǎng)絡(luò)輿論監(jiān)測(cè)引導(dǎo)、網(wǎng)際空間安全研究、在線醫(yī)療健康、跨境電商等領(lǐng)域均有著迫切的應(yīng)用需求。2017年國(guó)務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》,特別提出,要重點(diǎn)突破自然語言處理中的跨語言文本挖掘技術(shù)和認(rèn)知智能的語義理解技術(shù),實(shí)現(xiàn)多風(fēng)格、多領(lǐng)域的自然語言智能理解。
多語言情感分析乃至多語言信息處理研究也是目前自然語言處理領(lǐng)域的一大難點(diǎn)。相比單語言情感分析,多語言情感分析研究主要受限于多語言信息的語法和語用差異,以及低資源語言的標(biāo)注數(shù)據(jù)匱乏等難題,F(xiàn)有的情感分析研究主要在英語等高資源語言開展,在低資源語言甚至中等資源語言中開展情感分析研究仍是一項(xiàng)挑戰(zhàn)。因此,本書通過梳理多語言情感分析及其應(yīng)用涉及的理論基礎(chǔ)、技術(shù)基礎(chǔ)、語言資源以及典型應(yīng)用,能夠幫助本領(lǐng)域的入門者快速了解領(lǐng)域全貌。
本專著包括上下兩篇,共10章,上篇為單語言情感分析,下篇為多語言情感分析,順應(yīng)情感分析的發(fā)展脈絡(luò)和研究路線,內(nèi)容結(jié)構(gòu)合理、循序漸進(jìn)。本專著的一大特色是兼具技術(shù)性和綜述性,一方面涵蓋了多語言情感分析研究所需的文本表示學(xué)習(xí)基礎(chǔ)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型基礎(chǔ),另一方面梳理了現(xiàn)有的多語言情感語料資源、多語言情感分析綜述以及作者在多語言情感分析領(lǐng)域所做的探索性研究。
隨著國(guó)際化進(jìn)程加快和國(guó)際交流趨繁,多語言情感分析研究將會(huì)在越來越多的跨學(xué)科應(yīng)用領(lǐng)域發(fā)揮作用。希望本書可以幫助廣大讀者快速掌握多語言情感分析研究相關(guān)的技術(shù)和理論。
2023年7月10日
著名語言學(xué)家諾姆·喬姆斯基指出,研究人類的語言,就是探討所謂人類的本質(zhì),探討迄今所知為人類獨(dú)有的心智特征。情感是人類的一種主觀意識(shí),人們會(huì)有喜怒哀樂不同的情緒,并通過語言文字的方式進(jìn)行表達(dá);與此同時(shí),人們也會(huì)對(duì)客觀的事情或者事物進(jìn)行主觀評(píng)價(jià),表達(dá)傾向性的意見。情感分析研究,是利用可計(jì)算的手段對(duì)人類的主觀情感進(jìn)行客觀感知、表征和處理,從中挖掘出有用的信息。
情感分析研究屬于自然語言處理領(lǐng)域的一個(gè)分支,自誕生之日起就有著蓬勃的生命力。利用計(jì)算機(jī)的手段進(jìn)行情感分析,最早可追溯到美國(guó)MIT媒體實(shí)驗(yàn)室皮卡德教授于1995年提出的情感計(jì)算概念。情感分析研究需要解決的關(guān)鍵問題,是如何借助已知的有限情感資源信息對(duì)大量未知的信息進(jìn)行情感識(shí)別、情感表示以及情感因素度量,使得計(jì)算機(jī)擁有類似于人類的觀察、理解、生成情感的能力,實(shí)現(xiàn)更高層次的人機(jī)交互。
在信息全球化的背景下,從單語言場(chǎng)景下的情感分析擴(kuò)展到多語言場(chǎng)景下的情感分析是研究發(fā)展的必然趨勢(shì)。然而,在全球現(xiàn)有的7000多種語言里,已開展計(jì)算語言學(xué)研究的語言數(shù)量可能少于30種,大多數(shù)語言缺少進(jìn)行情感分析研究所需的計(jì)算資源和語言學(xué)資源。多語言情感分析研究存在嚴(yán)重的資源分布不均衡問題: 在英語等少數(shù)語言積累了豐富的語言資源和方法模型的同時(shí),其他語種、尤其是一些小語種的情感分析研究進(jìn)展緩慢,缺少可用的語言資源和方法模型。北京外國(guó)語大學(xué)現(xiàn)已開設(shè)了101種外語專業(yè),已開齊與中國(guó)建交國(guó)家的官方用語,給本領(lǐng)域的研究提供了豐富的語言資源和背景。因此,本書選擇從多語言的視角闡述情感分析這一頗具跨學(xué)科應(yīng)用特色的研究方向,嘗試講清楚情感分析是什么,單語言和多語言情感分析應(yīng)該怎么做,情感分析需要具備哪些理論基礎(chǔ)、技術(shù)基礎(chǔ)和模型基礎(chǔ),多語言情感分析有哪些可用的語言資源,多語言情感分析未來的發(fā)展等問題。
本書分為上下兩篇共10章,從計(jì)算機(jī)科學(xué)、語言學(xué)以及社會(huì)學(xué)等多學(xué)科交叉融合角度,闡述多語言情感分析研究涉及的理論基礎(chǔ)、技術(shù)基礎(chǔ)以及典型應(yīng)用。
第1章是緒論部分,介紹多語言信息的研究背景以及情感分析任務(wù)的概念定義,便于讀者理解多語言情感分析的任務(wù)分類,以及所面臨的主要問題和挑戰(zhàn)。
上篇單語語言情感分析包括第2~5章。第2章為單語言情感分析的背景知識(shí),闡述單語言情感分析的研究背景、應(yīng)用場(chǎng)景以及實(shí)現(xiàn)步驟。第3章講解文本表示的相關(guān)方法和模型。情感分析離不開文本的語義表示,因此第3章從傳統(tǒng)的向量空間模型談起,到LDA等主題模型,再到Word2vec等詞向量表示模型。第4章講解單語言情感分析所需的技術(shù)基礎(chǔ)學(xué)習(xí)模型講起。情感分析任務(wù)依賴于機(jī)器學(xué)習(xí)模型或者深度學(xué)習(xí)模型,這一章從樸素貝葉斯、支持向量機(jī)等傳統(tǒng)機(jī)器學(xué)習(xí)模型講起,再到卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶等淺層神經(jīng)網(wǎng)絡(luò)模型,最后到Transformer、BERT等深度學(xué)習(xí)預(yù)訓(xùn)練模型。第5章是單語言情感分析的應(yīng)用案例,是筆者在情感分析領(lǐng)域的研究成果,包括情感分析在股票預(yù)測(cè)中的應(yīng)用、情感分析在微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)中的應(yīng)用,以及情感分析在新聞?shì)浨閮A向預(yù)測(cè)中的應(yīng)用。
目錄多語言情感分析及其應(yīng)用下篇多語語言情感分析包括第6~10章。第6章為多語言情感分析的背景知識(shí),闡述多語言情感分析的研究背景、應(yīng)用場(chǎng)景以及實(shí)現(xiàn)步驟。第7章講解多語言情感分析所需的技術(shù)基礎(chǔ)跨語言文本表示?缯Z言文本表示能夠?qū)崿F(xiàn)多語言信息在同一語義空間的表示,是多語言情感分析乃至多語言自然語言處理的基礎(chǔ)。第8章闡述多語言情感分析的語言資源情感詞典的構(gòu)建。情感詞典是情感分析研究的重要輔助工具。這一章首先概述現(xiàn)有單語言情感詞典和多語言情感詞典構(gòu)建的相關(guān)研究,然后闡述筆者在領(lǐng)域自適應(yīng)單語情感詞典構(gòu)建方面的研究工作。第9章為跨語言情感分析方面研究綜述?缯Z言情感分析研究對(duì)于低資源語言的情感分析有著重要的現(xiàn)實(shí)意義。該章首先對(duì)高、中、低資源語言進(jìn)行定義,然后總結(jié)歸納現(xiàn)有跨語言情感分析研究的相關(guān)工作。第10章是多語言情感分析的2個(gè)具體實(shí)現(xiàn)模型,是筆者在跨語言情感分析方面的研究成果。本書的最后就大語言模型對(duì)多語言相關(guān)研究的未來發(fā)展和啟示進(jìn)行探討剖析,并提出對(duì)未來的展望。
談一下寫這本專著的初衷。我到北京外國(guó)語大學(xué)從教后開始接觸自然語言處理研究,這個(gè)過程走過一些彎路,很多地方都是從零開始慢慢摸索,一路跌跌撞撞,深切感受到這個(gè)過程如果能有系統(tǒng)性的著作或者教材引路,會(huì)走得更快更穩(wěn)一些。因此,這本書的寫作視角是站在情感分析研究入門者的角度,把我多年來在多語言情感分析研究的經(jīng)驗(yàn)教訓(xùn)和思考總結(jié)出來,幫助后來者更好地開展相關(guān)研究。一方面,我閱讀和整理了多語言以及跨語言情感分析領(lǐng)域的相關(guān)文獻(xiàn),并撰寫了綜述性的分析總結(jié),希望能夠給多語言情感分析入門者提供背景知識(shí);另一方面,我整理和完善了近年來我和我?guī)У膶W(xué)生在多語言情感分析領(lǐng)域所做的一些探索性的研究工作,借此機(jī)會(huì)對(duì)現(xiàn)有工作總結(jié),并對(duì)未來工作提出展望。得益于北京外國(guó)語大學(xué)豐富的多語言語料資源和濃厚的人文學(xué)術(shù)研究氛圍,我有幸接觸到許多非計(jì)算機(jī)專業(yè)、但是對(duì)情感分析研究很感興趣的研究學(xué)者和學(xué)生,他們希望能夠?qū)⑶楦蟹治黾夹g(shù)或者多語言信息處理技術(shù)應(yīng)用到所學(xué)領(lǐng)域,產(chǎn)生跨學(xué)科的火花碰撞。這本書在整理個(gè)人研究工作的同時(shí),也梳理了多語言情感分析研究所需掌握的語言表示技術(shù)基礎(chǔ)、機(jī)器學(xué)習(xí)理論基礎(chǔ)以及深度學(xué)習(xí)模型基礎(chǔ)等知識(shí),力所能及地提供一些理論參考和學(xué)習(xí)經(jīng)驗(yàn)指導(dǎo)。
感謝我所在的信息科學(xué)技術(shù)學(xué)院,特別感謝蔡連僑院長(zhǎng)和郭華偉書記,給我們青年教師提供了非常寬松和良好的科學(xué)研究環(huán)境和土壤,并鼓勵(lì)我們將個(gè)人科研興趣融入學(xué)院和學(xué)校的發(fā)展中,選擇做自己感興趣的方向。
感謝一起撰寫這本書的學(xué)生,她們是胡玲、王文清和杜宛澤。感謝編輯袁勤勇和蘇東方老師對(duì)書稿的精心校對(duì)與寶貴意見,清華大學(xué)出版社其他人員也為本書付出了大量努力,在此也一并表示誠摯的感謝!
因作者水平有限,書中難免有疏漏或錯(cuò)誤之處,敬請(qǐng)廣大讀者批評(píng)指正。
最后,謹(jǐn)以此書獻(xiàn)給我最敬愛的父親。父親陪伴了我三十多年的時(shí)光,我在他的教導(dǎo)和影響下成長(zhǎng)。在撰寫這本書的時(shí)間里,我都非常想念他。每每只有坐在書桌前寫書碼字時(shí),對(duì)父親的思念才得以排解。父愛如山、父愛無私,難忘父親教誨。
徐月梅
2023年8月
第1章緒論1
1.1多語言信息的研究背景1
1.2情感分析概述3
1.2.1情感分析的定義3
1.2.2情感分析的分類4
1.2.3情感分析的任務(wù)6
1.3情感分析的挑戰(zhàn)9
1.4參考文獻(xiàn)10
上篇單語語言情感分析
第2章單語情感分析任務(wù)15
2.1單語情感分析的研究背景15
2.2單語情感分析的應(yīng)用場(chǎng)景16
2.2.1商業(yè)智能16
2.2.2推薦系統(tǒng)17
2.2.3互聯(lián)網(wǎng)輿情20
2.2.4醫(yī)療健康領(lǐng)域21
2.3單語情感分析的實(shí)現(xiàn)步驟23
2.4本章小結(jié)24
2.5參考文獻(xiàn)24
第3章情感分析的技術(shù)基礎(chǔ)文本表示27
3.1傳統(tǒng)向量空間模型27
3.1.1基本概念27
3.1.2Onehot模型27
3.1.3TFIDF模型28
3.2文本主題模型29
3.2.1基本概念29
3.2.2PLSA模型30
3.2.3LDA模型33
3.2.4主題模型示例37
目錄多語言情感分析及其應(yīng)用3.3詞向量分布式表示模型38
3.3.1Word2vec模型39
3.3.2GloVe模型42
3.3.3詞向量模型示例43
3.4本章小結(jié)45
3.5參考文獻(xiàn)46
第4章情感分析的技術(shù)基礎(chǔ)學(xué)習(xí)模型47
4.1傳統(tǒng)機(jī)器學(xué)習(xí)模型47
4.1.1樸素貝葉斯法47
4.1.2k最近鄰法49
4.1.3決策樹法50
4.1.4支持向量機(jī)法55
4.1.5邏輯回歸法58
4.2淺層神經(jīng)網(wǎng)絡(luò)模型60
4.2.1卷積神經(jīng)網(wǎng)絡(luò)模型60
4.2.2長(zhǎng)短期記憶模型63
4.3深度預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型66
4.3.1Transformer模型66
4.3.2BERT模型73
4.3.3MultiBERT模型78
4.3.4ELECTRA模型82
4.3.5T5模型87
4.4本章小結(jié)90
4.5參考文獻(xiàn)91
第5章情感分析的應(yīng)用93
5.1情感分析在股票預(yù)測(cè)中的應(yīng)用93
5.1.1股票走勢(shì)預(yù)測(cè)研究背景93
5.1.2相關(guān)研究工作94
5.1.3基于新聞事件和情感特征的股票預(yù)測(cè)模型95
5.1.4實(shí)驗(yàn)分析100
5.1.5結(jié)論106
5.2情感分析在微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)中的應(yīng)用107
5.2.1微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)研究背景107
5.2.2相關(guān)研究工作108
5.2.3基于深度融合特征的政務(wù)微博轉(zhuǎn)發(fā)規(guī)模預(yù)測(cè)模型109
5.2.4實(shí)驗(yàn)分析113
5.2.5結(jié)語120
5.3情感分析在新聞?shì)浨閮A向預(yù)測(cè)中的應(yīng)用120
5.3.1新聞?shì)浨閮A向預(yù)測(cè)研究背景121
5.3.2相關(guān)研究工作122
5.3.3結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和Topic2vec的主題演變模型123
5.3.4實(shí)驗(yàn)分析127
5.3.5結(jié)語133
5.4本章小結(jié)133
5.5參考文獻(xiàn)133
下篇多語語言情感分析
第6章多語言情感分析任務(wù)1416.1多語言情感分析的研究背景141
6.2多語言情感分析的應(yīng)用場(chǎng)景144
6.2.1商業(yè)智能和推薦系統(tǒng)144
6.2.2多語言互聯(lián)網(wǎng)輿情146
6.2.3多語言情感資源建設(shè)146
6.3多語言情感分析的實(shí)現(xiàn)步驟147
6.4本章小結(jié)149
6.5參考文獻(xiàn)150
第7章多語言情感分析的技術(shù)基礎(chǔ)跨語言文本表示152
7.1跨語言詞向量的定義152
7.2跨語言詞向量模型概述153
7.2.1有監(jiān)督的跨語言詞向量模型154
7.2.2半監(jiān)督的跨語言詞向量模型157
7.2.3無監(jiān)督的跨語言詞向量模型160
7.3語義和情感聯(lián)合學(xué)習(xí)的跨語言詞向量模型研究163
7.3.1單語詞向量矩陣標(biāo)準(zhǔn)化165
7.3.2初始跨語言映射矩陣生成166
7.3.3先驗(yàn)情感信息嵌入167
7.3.4跨語言情感詞向量映射168
7.3.5實(shí)驗(yàn)分析168
7.4本章小結(jié)177
7.5參考文獻(xiàn)178
第8章多語言情感分析的語言資源情感詞典構(gòu)建181
8.1情感詞典構(gòu)建181
8.1.1情感詞典的定義181
8.1.2情感詞典的研究意義182
8.2多語言情感詞典資源184
8.2.1情感詞典的格式184
8.2.2英文情感詞典資源185
8.2.3中文情感詞典資源186
8.2.4其他語言情感詞典資源188
8.3單語情感詞典的構(gòu)建方法概述191
8.3.1基于PMI相似度的單語情感詞典構(gòu)建193
8.3.2基于關(guān)系圖傳播的單語情感詞典構(gòu)建195
8.3.3基于詞向量表示的單語情感詞典構(gòu)建197
8.4多語情感詞典的構(gòu)建方法概述198
8.4.1早期的雙語情感詞典構(gòu)建198
8.4.2基于跨語言詞向量的雙語情感詞典構(gòu)建199
8.5基于領(lǐng)域自適應(yīng)的單語情感詞典構(gòu)建研究200
8.5.1模型構(gòu)建流程201
8.5.2情感表示學(xué)習(xí)202
8.5.3種子詞典擴(kuò)充203
8.5.4情感詞典構(gòu)建204
8.5.5實(shí)驗(yàn)與結(jié)果分析204
8.6本章小結(jié)207
8.7參考文獻(xiàn)208
第9章跨語言情感分析213
9.1高、中、低資源語言213
9.1.1高、中、低資源語言的定義213
9.1.2低資源語言的研究意義214
9.2早期跨語言情感分析研究概述215
9.2.1基于機(jī)器翻譯及其改進(jìn)的方法216
9.2.2基于平行語料庫的方法219
9.2.3基于雙語情感詞典的方法220
9.3結(jié)合詞向量表示的跨語言情感分析研究概述222
9.3.1基于跨語言詞向量的方法222
9.3.2基于生成對(duì)抗網(wǎng)絡(luò)的方法223
9.3.3基于多語言預(yù)訓(xùn)練模型的方法225
9.4跨語言情感分析研究前沿探討228
9.5本章小結(jié)230
9.6參考文獻(xiàn)230
第10章多語言情感分析的應(yīng)用案例236
10.1基于情感特征表示的跨語言文本情感分析研究236
10.1.1模型背景236
10.1.2相關(guān)研究工作238
10.1.3基于情感感知的跨語言情感分析模型239
10.1.4實(shí)驗(yàn)結(jié)果242
10.1.5結(jié)論251
10.2基于持續(xù)學(xué)習(xí)的多語言情感分析研究251
10.2.1模型背景252
10.2.2持續(xù)學(xué)習(xí)理論及相關(guān)研究253
10.2.3基于持續(xù)學(xué)習(xí)的多語言情感分析模型255
10.2.4實(shí)驗(yàn)結(jié)果257
10.2.5結(jié)論260
10.3大語言模型對(duì)多語言智能研究的發(fā)展與啟示261
10.3.1大語言模型的發(fā)展脈絡(luò)261
10.3.2大語言模型的多語言探索264
10.3.3大語言模型的多語言局限和改進(jìn)265
10.3.4大語言模型的多語言應(yīng)用場(chǎng)景266
10.3.5結(jié)論267
10.4本章小結(jié)267
10.5參考文獻(xiàn)268