基于泛在交互文本的用戶情境解析技術(shù)研究 陳震鵬
定 價(jià):69 元
- 作者:陳震鵬
- 出版時(shí)間:2024/5/1
- ISBN:9787111752127
- 出 版 社:機(jī)械工業(yè)出版社
- 中圖法分類:TP391.1
- 頁(yè)碼:
- 紙張:膠版紙
- 版次:
- 開(kāi)本:32開(kāi)
在開(kāi)放、動(dòng)態(tài)、多變的互聯(lián)網(wǎng)環(huán)境下,感知并理解用戶情境是計(jì)算機(jī)軟件應(yīng)具備的重要能力。近年來(lái),基于交互文本的用戶情境解析是學(xué)術(shù)界和產(chǎn)業(yè)界的熱點(diǎn)問(wèn)題。
本書(shū)深入調(diào)研了基于交互文本的用戶情境解析方面的研究進(jìn)展,分析總結(jié)了當(dāng)前研究工作存在的問(wèn)題和不足。針對(duì)這些問(wèn)題,提出了基于泛在交互文本的用戶情境解析方法,為用戶情境解析提供了新穎的研究思路和有效的技術(shù)方案。
本書(shū)適合具備相關(guān)計(jì)算機(jī)基礎(chǔ)的研究、開(kāi)發(fā)人員閱讀,也可為軟件工程、萬(wàn)維網(wǎng)、信息檢索、自然語(yǔ)言處理、泛在計(jì)算、人機(jī)交互等眾多領(lǐng)域的學(xué)者提供一定的參考和借鑒。
本書(shū)內(nèi)容榮獲2022年“CCF優(yōu)秀博士學(xué)位論文激勵(lì)計(jì)劃”
當(dāng)前,人機(jī)物三元融合的泛在計(jì)算時(shí)代正在開(kāi)啟,在開(kāi)放、動(dòng)態(tài)、多變的網(wǎng)絡(luò)平臺(tái)上,理解和感知用戶情境對(duì)計(jì)算機(jī)軟件來(lái)說(shuō)變得至關(guān)重要。用戶情境涵蓋了靜態(tài)信息如性別等以及動(dòng)態(tài)信息如情感等,準(zhǔn)確地捕捉和解析用戶情境對(duì)于軟件服務(wù)的智能化推薦具有重要意義。
本書(shū)圍繞“用戶情境解析”這個(gè)計(jì)算機(jī)軟件領(lǐng)域的重要問(wèn)題開(kāi)展研究,系統(tǒng)梳理了基于交互文本的用戶情境解析方面的研究進(jìn)展,分析總結(jié)了當(dāng)前工作存在的問(wèn)題,提出了基于泛在交互文本的用戶情境解析方法,從全新的研究視角探索了用戶情境解析,具有較高的理論意義與實(shí)用價(jià)值。
在開(kāi)放、動(dòng)態(tài)、多變的互聯(lián)網(wǎng)環(huán)境下,軟件需要能感知其外部環(huán)境的變化,并據(jù)此調(diào)整自身行為,以持續(xù)提供滿足甚至超出用戶期望的服務(wù)。因此,軟件外部環(huán)境的建模、處理等一直以來(lái)得到學(xué)術(shù)界的廣泛重視。學(xué)術(shù)界將軟件的外部環(huán)境抽象為軟件的上下文,具體而言,包括計(jì)算上下文、物理上下文、時(shí)間上下文、用戶上下文等。隨著軟件用戶群體的不斷擴(kuò)大,現(xiàn)代軟件大多具有用戶需求多樣化的特點(diǎn),導(dǎo)致用戶上下文日益得到重視。具體而言,高質(zhì)量的軟件需要全面高效地感知其服務(wù)的用戶,通過(guò)對(duì)用戶上下文信息的加工和處理,提供滿足不同用戶的個(gè)性化服務(wù)。
研究者以“用戶情境(user situation)”來(lái)涵蓋各類用戶上下文信息,具體而言,包含年齡、性別等生存周期較長(zhǎng)的靜態(tài)用戶情境,以及喜好、情感狀態(tài)等生存周期較短的動(dòng)態(tài)用戶情境。相應(yīng)地,感知用戶情境的過(guò)程被稱為用戶情境解析,包括感知靜態(tài)用戶情境(即靜態(tài)用戶情境解析)和感知?jiǎng)討B(tài)用戶情境(即動(dòng)態(tài)用戶情境解析)。
文本輸入是用戶與軟件最重要的交互形式之一,基于交互文本(即用戶輸入文本)的用戶情境解析是學(xué)術(shù)界的研究熱點(diǎn)。但是,現(xiàn)有基于交互文本的方法存在一定的問(wèn)題。一方面,現(xiàn)有基于交互文本的靜態(tài)用戶情境解析方法存在較大的隱私風(fēng)險(xiǎn)。具體而言,性別、年齡等靜態(tài)用戶情境通常難以通過(guò)用戶交互所產(chǎn)生的少量文本解析得出,服務(wù)提供商往往收集用戶在長(zhǎng)時(shí)間內(nèi)產(chǎn)生的大量交互文本進(jìn)行解析,以提高解析效果。這種對(duì)大量交互文本進(jìn)行存儲(chǔ)和處理的做法,增加了訪問(wèn)和泄露用戶隱私的風(fēng)險(xiǎn)。另一方面,現(xiàn)有基于交互文本的動(dòng)態(tài)用戶情境解析方法主要針對(duì)英語(yǔ)和社交媒體領(lǐng)域,導(dǎo)致在其他語(yǔ)言和其他領(lǐng)域人工標(biāo)簽數(shù)據(jù)不足,解析效果不佳。為了解決這一問(wèn)題,直觀的做法是為每種語(yǔ)言、每種領(lǐng)域都人工標(biāo)注大量的數(shù)據(jù)。但是,人工標(biāo)注耗時(shí)耗力,可行性較低。
針對(duì)上述問(wèn)題,本書(shū)提出了基于泛在交互文本的用戶情境解析方法。泛在交互文本是以計(jì)算機(jī)為中介的文本溝通中相對(duì)直觀的視覺(jué)表達(dá),與傳統(tǒng)交互文本相互補(bǔ)充。常見(jiàn)的泛在交互文本包括顏文字(emoticon)和繪文字(emoji)等。一方面,泛在交互文本被世界各地用戶廣泛使用,且不同靜態(tài)用戶情境的用戶在泛在交互文本的使用上存在差異,啟發(fā)本書(shū)在特定情況下使用泛在交互文本代替?zhèn)鹘y(tǒng)交互文本,用于靜態(tài)用戶情境解析,以降低用戶隱私風(fēng)險(xiǎn)。另一方面,泛在交互文本常在文本交互中被用于表達(dá)情感、情緒、語(yǔ)義等信息,啟發(fā)本書(shū)使用泛在交互文本作為情感等動(dòng)態(tài)用戶情境的代理標(biāo)簽,彌補(bǔ)動(dòng)態(tài)用戶情境解析中特定語(yǔ)言、特定領(lǐng)域人工標(biāo)簽數(shù)據(jù)的不足。
具體而言,本書(shū)的主要工作和創(chuàng)新點(diǎn)如下:
1.提出了基于監(jiān)督學(xué)習(xí)的靜態(tài)用戶情境解析技術(shù)EmoLens。EmoLens基于實(shí)證分析開(kāi)展特征工程,從用戶文本交互中提取出對(duì)靜態(tài)用戶情境有區(qū)分度的泛在交互文本使用特征,并基于經(jīng)典的機(jī)器學(xué)習(xí)算法,采用監(jiān)督學(xué)習(xí)的方式訓(xùn)練得到靜態(tài)用戶情境解析模型。相較于現(xiàn)有基于傳統(tǒng)交互文本的方法,EmoLens僅依賴用戶產(chǎn)生的泛在交互文本,降低了用戶隱私風(fēng)險(xiǎn)。EmoLens在來(lái)自183個(gè)國(guó)家的134 419個(gè)真實(shí)用戶信息上的解析準(zhǔn)確率達(dá)到0.811,比基線方法提升了約24%,且解析效果與基于傳統(tǒng)交互文本的方法相當(dāng)。
2.提出了基于遷移學(xué)習(xí)的跨語(yǔ)言動(dòng)態(tài)用戶情境解析技術(shù)ELSA。ELSA從公共平臺(tái)爬取大量包含泛在交互文本的英語(yǔ)和目標(biāo)語(yǔ)言數(shù)據(jù),使用表征學(xué)習(xí)方法從中提取泛在交互文本使用的隱式特征,再協(xié)同機(jī)器翻譯將蘊(yùn)含在這些特征中的知識(shí)通過(guò)遷移學(xué)習(xí)的方式遷移到目標(biāo)語(yǔ)言的動(dòng)態(tài)用戶情境解析模型中。ELSA在9項(xiàng)基準(zhǔn)任務(wù)上平均準(zhǔn)確率達(dá)到0.840,顯著超過(guò)現(xiàn)有方法,錯(cuò)誤率降低了約14%。
3.提出了基于遷移學(xué)習(xí)的領(lǐng)域特定動(dòng)態(tài)用戶情境解析技術(shù)SEntiMoji。SEntiMoji從公共平臺(tái)爬取大量包含泛在交互文本的社交媒體領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù),使用表征學(xué)習(xí)方法從中提取泛在交互文本使用的隱式特征,再將蘊(yùn)含在這些特征中的知識(shí)通過(guò)遷移學(xué)習(xí)的方式遷移到目標(biāo)領(lǐng)域的動(dòng)態(tài)用戶情境解析模型中。SEntiMoji在20項(xiàng)基準(zhǔn)任務(wù)上平均準(zhǔn)確率達(dá)到0.908,顯著超過(guò)現(xiàn)有方法,錯(cuò)誤率降低了約21%。
在上述三項(xiàng)技術(shù)的基礎(chǔ)上,本書(shū)實(shí)現(xiàn)了一套基于泛在交互文本的用戶情境解析工具,合計(jì)包含13個(gè)API,可供各類客戶端調(diào)用。
陳震鵬,新加坡南洋理工大學(xué)研究員,曾任英國(guó)倫敦大學(xué)學(xué)院研究員。于2016年和2021年在北京大學(xué)分別獲得學(xué)士學(xué)位和博士學(xué)位。主要
研究方向?yàn)檐浖こ、人工智能、萬(wàn)維網(wǎng)等。
在ICSE、FSE、ISSTA、WWW、TOSEM等計(jì)算機(jī)學(xué)術(shù)會(huì)議和期刊發(fā)表論文三十余篇。獲WWW最佳論文獎(jiǎng)、ACM SIGSOFT杰出論文獎(jiǎng)、
微軟學(xué)者、 CCF優(yōu)秀博士學(xué)位論文激勵(lì)計(jì)劃、北京市優(yōu)秀博士學(xué)位論文獎(jiǎng)等榮譽(yù)。受邀擔(dān)任ICSE、ASE、WWW、KDD等國(guó)際會(huì)議程序委員
會(huì)委員和TSE、TOSEM、TWEB等國(guó)際期刊審稿人,獲評(píng)ASE杰出程序委員會(huì)委員、TOSEM杰出審稿人、TWEB杰出審稿人等榮譽(yù)。
叢書(shū)序
推薦序Ⅰ
推薦序Ⅱ
導(dǎo)師序
摘要
Abstract
第1章 引言
1.1 問(wèn)題的提出1
1.1.1 用戶情境1
1.1.2 用戶情境解析3
1.2 相關(guān)研究現(xiàn)狀5
1.2.1 基于交互文本的靜態(tài)用戶情境解析5
1.2.2 基于交互文本的動(dòng)態(tài)用戶情境解析14
1.3 現(xiàn)有工作中存在的問(wèn)題21
1.4 本書(shū)主要內(nèi)容26
第2章 基于泛在交互文本的用戶情境解析方法框架
2.1 泛在交互文本30
2.1.1 常見(jiàn)的泛在交互文本31
2.1.2 泛在交互文本的特性33
2.2 方法框架37
2.2.1 框架依據(jù)37
2.2.2 框架概覽39
2.2.3 挑戰(zhàn)及技術(shù)路線41
2.3 工具實(shí)現(xiàn)44
2.4 小結(jié)51
第3章 基于監(jiān)督學(xué)習(xí)的靜態(tài)用戶情境解析技術(shù)
3.1 技術(shù)概覽53
3.2 基于實(shí)證分析的特征工程55
3.2.1 數(shù)據(jù)收集56
3.2.2 實(shí)證分析58
3.2.3 特征提取66
3.3 基于監(jiān)督學(xué)習(xí)的模型訓(xùn)練68
3.4 實(shí)驗(yàn)驗(yàn)證69
3.4.1 待驗(yàn)證的問(wèn)題70
3.4.2 實(shí)驗(yàn)設(shè)置70
3.4.3 實(shí)驗(yàn)結(jié)果73
3.5 小結(jié)80
第4章 基于遷移學(xué)習(xí)的跨語(yǔ)言動(dòng)態(tài)用戶情境解析技術(shù)
4.1 技術(shù)概覽84
4.2 泛在交互文本賦能的語(yǔ)言表征86
4.3 基于遷移學(xué)習(xí)的模型訓(xùn)練91
4.4 目標(biāo)語(yǔ)言的動(dòng)態(tài)用戶情境解析92
4.5 實(shí)驗(yàn)驗(yàn)證92
4.5.1 待驗(yàn)證的問(wèn)題93
4.5.2 實(shí)驗(yàn)設(shè)置93
4.5.3 實(shí)驗(yàn)結(jié)果98
4.6 小結(jié)114
第5章 基于遷移學(xué)習(xí)的領(lǐng)域特定動(dòng)態(tài)用戶情境解析技術(shù)
5.1 技術(shù)概覽117
5.2 泛在交互文本賦能的領(lǐng)域表征120
5.3 基于遷移學(xué)習(xí)的模型訓(xùn)練122
5.4 目標(biāo)領(lǐng)域的動(dòng)態(tài)用戶情境解析123
5.5 實(shí)驗(yàn)驗(yàn)證123
5.5.1 待驗(yàn)證的問(wèn)題123
5.5.2 實(shí)驗(yàn)設(shè)置124
5.5.3 實(shí)驗(yàn)結(jié)果140
5.6 小結(jié)181
第6章 結(jié)束語(yǔ)
6.1 本書(shū)內(nèi)容總結(jié)182
6.2 未來(lái)工作展望184
參考文獻(xiàn)186
攻讀博士學(xué)位期間的科研成果209
致謝212
叢書(shū)跋215