自然語(yǔ)言處理技術(shù)——文本信息抽取及應(yīng)用研究
定 價(jià):108 元
叢書(shū)名:前沿科技·人工智能系列
- 作者:黃河燕
- 出版時(shí)間:2022/6/1
- ISBN:9787121437694
- 出 版 社:電子工業(yè)出版社
- 中圖法分類(lèi):TP391
- 頁(yè)碼:276
- 紙張:
- 版次:01
- 開(kāi)本:16開(kāi)
信息抽取的目的是從海量互聯(lián)網(wǎng)文本信息中抽取結(jié)構(gòu)化知識(shí),是知識(shí)圖譜自動(dòng)化構(gòu)建、更新的基礎(chǔ),為信息檢索、推薦系統(tǒng)、智能問(wèn)答等諸多研究領(lǐng)域提供底層知識(shí)推理支撐并取得了重大突破,是推動(dòng)人工智能技術(shù)由感知走向認(rèn)知的關(guān)鍵要素,具有重要的研究意義和實(shí)用價(jià)值。本書(shū)梳理了命名實(shí)體識(shí)別、關(guān)系抽取、事件抽取等相關(guān)研究方向的知識(shí)資源、基礎(chǔ)理論和實(shí)踐應(yīng)用,詳細(xì)介紹了實(shí)體關(guān)系聯(lián)合抽取、弱監(jiān)督關(guān)系抽取、基于遷移學(xué)習(xí)的關(guān)系抽取、多實(shí)例聯(lián)合事件抽取、基于因變量的事件模板推導(dǎo)等前沿理論研究,并以領(lǐng)域知識(shí)圖譜、事理圖譜等為例,詳細(xì)介紹了信息抽取在圖譜構(gòu)建中的應(yīng)用。最后本書(shū)對(duì)信息抽取進(jìn)行了總結(jié)和未來(lái)研究方向展望。
1963年10月生,籍貫湖南。1986年1月加入中國(guó)共產(chǎn)黨,1989年3月參加工作。1983年畢業(yè)于武漢測(cè)繪科技大學(xué)計(jì)算機(jī)系獲學(xué)士學(xué)位,1986年畢業(yè)于國(guó)防科技大學(xué)計(jì)算機(jī)系獲碩士學(xué)位,1989年畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所獲博士學(xué)位,后留所工作,先后任助理研究員、副研究員、研究員;1997年至2009年在中科院計(jì)算機(jī)語(yǔ)言信息工程研究中心任副主任、研究員并先后兼任中科院華建集團(tuán)黨委委員、副書(shū)記,2009年至今任北京理工大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)、教授,兼北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心主任及中-德語(yǔ)言信息處理聯(lián)合實(shí)驗(yàn)室主任;現(xiàn)為國(guó)家"863計(jì)劃”主題專(zhuān)家組成員、中國(guó)人工智能學(xué)會(huì)及中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)、教育部計(jì)算機(jī)教學(xué)指導(dǎo)委員會(huì)委員、北京市學(xué)位委員會(huì)委員。主持承擔(dān)了國(guó)家自科基金重點(diǎn)項(xiàng)目、"973計(jì)劃”課題、"863計(jì)劃”項(xiàng)目等20多項(xiàng)國(guó)家級(jí)科研攻關(guān)項(xiàng)目,獲得了國(guó)家科技進(jìn)步一等獎(jiǎng)等8項(xiàng)國(guó)家級(jí)和省部級(jí)獎(jiǎng)勵(lì),1997年享受?chē)?guó)務(wù)院政府特殊津貼,2014年當(dāng)選全國(guó)優(yōu)秀科技工作者。
第1章 緒論 1
1.1 研究背景及意義 1
1.2 基本定義及問(wèn)題描述 3
1.2.1 概念 3
1.2.2 命名實(shí)體識(shí)別 3
1.2.3 關(guān)系抽取 4
1.2.4 事件抽取 4
1.2.5 資源受限 6
1.2.6 信息抽取應(yīng)用 7
1.3 基本研究方法與代表性系統(tǒng) 9
1.3.1 基于規(guī)則的方法 9
1.3.2 基于統(tǒng)計(jì)模型的方法 10
1.3.3 基于深度學(xué)習(xí)的方法 10
1.3.4 基于文本挖掘的方法 10
1.4 本書(shū)章節(jié)組織架構(gòu) 11
第2章 基礎(chǔ)理論 13
2.1 詞匯語(yǔ)義表示 13
2.1.1 基于矩陣分解的方法 13
2.1.2 基于預(yù)測(cè)任務(wù)的方法 15
2.2 序列標(biāo)注 16
2.3 條件隨機(jī)場(chǎng) 18
2.3.1 線性鏈條件隨機(jī)場(chǎng) 18
2.3.2 Viterbi算法 19
2.4 循環(huán)神經(jīng)網(wǎng)絡(luò) 20
2.4.1 樸素循環(huán)神經(jīng)網(wǎng)絡(luò) 21
2.4.2 長(zhǎng)短期記憶網(wǎng)絡(luò) 22
2.4.3 門(mén)控循環(huán)單元 22
2.4.4 雙向循環(huán)神經(jīng)網(wǎng)絡(luò) 23
2.5 卷積神經(jīng)網(wǎng)絡(luò) 24
2.5.1 文本上的卷積 25
2.5.2 卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn) 25
2.6 圖卷積神經(jīng)網(wǎng)絡(luò) 26
2.7 多任務(wù)學(xué)習(xí) 28
2.7.1 多任務(wù)學(xué)習(xí)模式 28
2.7.2 多任務(wù)學(xué)習(xí)有效性分析 29
2.8 遠(yuǎn)程監(jiān)督 30
2.9 遷移學(xué)習(xí) 30
2.9.1 基于實(shí)例的遷移學(xué)習(xí) 31
2.9.2 基于特征的遷移學(xué)習(xí) 31
2.9.3 基于共享參數(shù)的遷移學(xué)習(xí) 31
參考文獻(xiàn) 32
第3章 信息抽取相關(guān)評(píng)測(cè)和標(biāo)注資源 35
3.1 MUC系列評(píng)測(cè)會(huì)議 35
3.2 ACE系列評(píng)測(cè)會(huì)議 37
3.3 TAC-KBP系列評(píng)測(cè)會(huì)議 40
3.4 其他研究活動(dòng) 43
3.5 信息抽取標(biāo)注資源 43
參考文獻(xiàn) 45
第4章 聯(lián)合實(shí)體識(shí)別的關(guān)系抽取 48
4.1 引言 48
4.2 問(wèn)題描述 51
4.3 基于序列建模的實(shí)體識(shí)別 51
4.3.1 基于BERT的句子編碼 51
4.3.2 頭實(shí)體識(shí)別 52
4.3.3 尾實(shí)體識(shí)別 53
4.4 基于生成的實(shí)體關(guān)系聯(lián)合抽取 53
4.4.1 句子編碼 55
4.4.2 基于集合預(yù)測(cè)的解碼過(guò)程 56
4.5 基于翻譯的實(shí)體關(guān)系聯(lián)合抽取 57
4.5.1 輸入編碼 57
4.5.2 實(shí)體識(shí)別 58
4.5.3 關(guān)系預(yù)測(cè) 58
4.5.4 基于翻譯的實(shí)體關(guān)系聯(lián)合抽取案例 61
4.6 實(shí)驗(yàn)驗(yàn)證 62
4.6.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo) 63
4.6.2 對(duì)比算法 63
4.6.3 實(shí)驗(yàn)結(jié)果 64
4.6.4 問(wèn)題與思考 65
4.7 本章小結(jié) 66
參考文獻(xiàn) 67
第5章 弱監(jiān)督的關(guān)系抽取 69
5.1 引言 69
5.2 問(wèn)題分析 70
5.3 基于注意力機(jī)制的弱監(jiān)督關(guān)系抽取 73
5.3.1 基于切分卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取 73
5.3.2 基于句子級(jí)別的注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取 76
5.3.3 基于實(shí)體描述的句子級(jí)別的注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取 77
5.3.4 基于非獨(dú)立同分布的遠(yuǎn)程監(jiān)督關(guān)系抽取 80
5.4 基于圖卷積的遠(yuǎn)程監(jiān)督關(guān)系抽取 82
5.4.1 基于依存樹(shù)的圖卷積關(guān)系抽取 82
5.4.2 基于注意力機(jī)制引導(dǎo)的圖卷積神經(jīng)網(wǎng)絡(luò)關(guān)系抽取 85
5.5 基于篇章級(jí)別的遠(yuǎn)程監(jiān)督關(guān)系抽取 87
5.6 實(shí)驗(yàn)驗(yàn)證 91
5.7 本章小結(jié) 95
參考文獻(xiàn) 96
第6章 基于知識(shí)遷移的關(guān)系抽取 101
6.1 引言 101
6.2 同類(lèi)別遷移的關(guān)系抽取 102
6.2.1 引言 102
6.2.2 相關(guān)工作 104
6.2.3 基于領(lǐng)域分離映射的領(lǐng)域自適應(yīng)關(guān)系抽取框架 106
6.2.4 實(shí)驗(yàn)部分 111
6.2.5 總結(jié)與分析 117
6.3 跨類(lèi)別遷移的關(guān)系抽取 118
6.3.1 引 言 118
6.3.2 相關(guān)工作 120
6.3.3 基于任務(wù)感知的小實(shí)例關(guān)系抽取模型 122
6.3.4 實(shí)驗(yàn)部分 129
6.3.5 總結(jié)與分析 134
6.4 不均衡模型訓(xùn)練方法 135
6.4.1 引 言 135
6.4.2 相關(guān)工作 137
6.4.3 基于多分布選擇的不均衡數(shù)據(jù)分類(lèi)方法 140
6.4.4 實(shí)驗(yàn)部分 144
6.4.5 總結(jié)與分析 149
6.5 本章小結(jié) 149
參考文獻(xiàn) 150