《面向短文本的主題模型技術(shù)》系統(tǒng)地介紹了主題模型緊密相關(guān)的基本理論、實(shí)用技術(shù)及其在微博、彈幕等社交媒體短文本中的應(yīng)用。
《面向短文本的主題模型技術(shù)》首先從主題模型產(chǎn)生的背景、定義、分類和應(yīng)用入手,概述了主題模型相關(guān)技術(shù)理論和未來發(fā)展趨勢(shì),然后分別對(duì)面向微博評(píng)論的LDA主題模型、面向微博熱點(diǎn)話題分析與演化的BTM主題模型、面向彈幕短文本分析與演化的oBTM主題模型進(jìn)行深入的剖析和驗(yàn)證。
《面向短文本的主題模型技術(shù)》學(xué)術(shù)思想新穎、內(nèi)容系統(tǒng)、理論性和實(shí)用性強(qiáng),可供從事人工智能、計(jì)算機(jī)科學(xué)技術(shù)、軟件工程及相關(guān)專業(yè)的科研人員和高等院校相關(guān)專業(yè)的師生學(xué)習(xí)和參考。
微博等社交媒體因其具有話題內(nèi)容廣、傳播速度快、實(shí)時(shí)性好、用戶數(shù)量龐大的特點(diǎn),已經(jīng)成為傳播市場(chǎng)經(jīng)濟(jì)、時(shí)事政治等資訊的重要平臺(tái),發(fā)揮著輿情發(fā)酵中心、事件記錄中心、力量集聚中心和謠言粉碎中心的作用。因此,對(duì)微博等社交媒體文本進(jìn)行主題分析,發(fā)現(xiàn)其演化趨勢(shì),契合新聞?shì)浾摫O(jiān)控國(guó)家需求,落實(shí)習(xí)近平總書記在黨的十九大報(bào)告中提出的新聞?shì)浾摴ぷ髦c(diǎn),“堅(jiān)持正確輿論導(dǎo)向,高度重視傳播手段建設(shè)和創(chuàng)新,提高新聞?shì)浾搨鞑チ、引?dǎo)力、影響力、公信力”。
近年來,傳統(tǒng)長(zhǎng)文本分析方法及其性能取得不斷突破的同時(shí)也在日趨飽和,其發(fā)展正逐漸面臨來自對(duì)篇幅較短且缺乏上下文信息文本的挑戰(zhàn)。短文本的特殊性主要表現(xiàn)在如下三個(gè)方面:(1)文體較短。短文本大多在140字以內(nèi),而傳統(tǒng)主題模型(如PLSA、LDA等)僅適用于長(zhǎng)文本,若利用傳統(tǒng)的主題模型對(duì)短文本建模,會(huì)造成嚴(yán)重的數(shù)據(jù)稀疏問題,使得挖掘到的特征詞之間關(guān)聯(lián)性較差,從而影響主題劃分效果。(2)語言表述不規(guī)范。社交媒體面向大眾群體,用詞和語法格式?jīng)]有統(tǒng)一標(biāo)準(zhǔn),用戶更趨向于使用網(wǎng)絡(luò)熱詞、表情、符號(hào)等來表達(dá)自己的想法,這就導(dǎo)致短文本中充斥著大量的噪聲數(shù)據(jù),給主題劃分造成了一定的困難。(3)文本形式的特殊性。在形式上,以微博短文本為例,大多含有話題標(biāo)簽,話題標(biāo)簽中的詞能起到概括該微博內(nèi)容的作用,這些特殊形式的文本將影響主題劃分效果。因此,如何快速準(zhǔn)確地從短文本中挖掘和發(fā)現(xiàn)潛在有用的主題特征詞,獲得短文本主題隨時(shí)間變化的演化規(guī)律,已經(jīng)成為短文本分析與演化的關(guān)鍵問題。
作者多年來一直從事數(shù)據(jù)挖掘、自然語言處理、網(wǎng)絡(luò)輿情分析等領(lǐng)域的研究工作。近5年來,作者及科研團(tuán)隊(duì)針對(duì)現(xiàn)有傳統(tǒng)面向社交媒體短文本的主題模型聚類方法語義分析能力、主題劃分效果不佳、熱點(diǎn)話題演化準(zhǔn)確率不高等重點(diǎn)和難點(diǎn)問題,融合聚類等數(shù)據(jù)挖掘技術(shù),開展短文本主題情感分析和特征提取方法、面向評(píng)論短文本分析與演化和面向熱點(diǎn)話題發(fā)現(xiàn)與演化的主題模型研究,有望突破傳統(tǒng)主題模型LDA、BTM和oBTM的局限,形成新的利用主題模型和聚類技術(shù)分析社交媒體短文本的方案。上述研究成果對(duì)于融合主題模型的聚類方法在多元化新媒體短文本的應(yīng)用推廣具有理論支撐和實(shí)踐價(jià)值:同時(shí),也為網(wǎng)絡(luò)輿情監(jiān)控以及應(yīng)急響應(yīng)策略制定提供決策和支持,對(duì)維護(hù)社會(huì)穩(wěn)定、節(jié)約社會(huì)管理資源,具有重要的應(yīng)用價(jià)值。
當(dāng)前,面向短文本的主題模型技術(shù)仍處于發(fā)展階段,國(guó)內(nèi)尚缺少較為全面和系統(tǒng)地介紹主題模型技術(shù)的書籍。本書是在上述科學(xué)研究和技術(shù)開發(fā)工作基礎(chǔ)上撰寫而成,是筆者及科研團(tuán)隊(duì)在面向微博、彈幕等社交媒體分析及演化的主題模型研究成果的系統(tǒng)總結(jié)。因此,希望本書的出版能夠?yàn)橹黝}模型技術(shù)在社交媒體短文本及其他領(lǐng)域的應(yīng)用提供借鑒與幫助。
吳迪,女,1984年12月出生,河北肅寧人,工學(xué)博士,F(xiàn)為河北工程大學(xué)副教授,軟件工程系主任,首批“全國(guó)黨建工作樣板支部”書記,校級(jí)“雙帶頭人”,碩士生導(dǎo)師,河北安防報(bào)警網(wǎng)絡(luò)有限公司技術(shù)顧問和北京大學(xué)邯鄲創(chuàng)新研究院專家。近年來主持或主研***、省部級(jí)教學(xué)科研項(xiàng)目20余項(xiàng),發(fā)表SCI、EI檢索論文20余篇,出版教材4部,授權(quán)國(guó)家發(fā)明專利2項(xiàng),獲河北省科技進(jìn)步獎(jiǎng)三等獎(jiǎng)和邯鄲市科技進(jìn)步獎(jiǎng)三等獎(jiǎng)各1項(xiàng)。目前主要從事數(shù)據(jù)挖掘、自然語言處理方面的教學(xué)與研究工作。
第一章主題模型概述第二章面向微博評(píng)論的LDA主題模型第三章對(duì)面向微博熱點(diǎn)話題分析的BTM主題模型第四章面向微博熱點(diǎn)話題演化的OBTM主題模型第五章面向彈幕短文本分析的OBTM主題模型第六章面向彈幕短文本演化的OBTM主題模型