1.《漢語名詞短句隱喻識別研究》全面地描述了漢語名詞隱喻的層級分布。
隱喻被認為是人的一種思維方式,廣泛存在于人類語言中,其類型之多、問題之復雜,至今還沒有完全理清楚。探索性研究不宜全面鋪開,需要確定重點。通過尋找隱喻的外部特征,全面描述漢語名詞隱喻的層級分布,最終聚焦于漢語名詞短語的自動識別:實踐證明這個決策是可行的、明智的。在描寫的基礎上借助大量的統(tǒng)計數(shù)字來明確自己的攻關方向,這是值得推薦的寶貴經(jīng)驗。
2.注重隱喻知識資源的積累和加工,提出漢語隱喻知識庫的建造方法。
隨著大規(guī)模語料庫的出現(xiàn),關注從語料庫中提取隱喻知識可以彌補基于規(guī)則方法建造的知識庫之不足。作者勇于實踐,研制了漢語名詞隱喻詞表。該詞表是作者通過對《現(xiàn)代漢語語法信息詞典》中的3萬多個名詞進行細致考察和潛心研究之后編制出來的,這對人們?nèi)媪私夂驼J識名詞隱喻,進行更深一步的研究是非常有價值的。漢語名詞隱喻知識庫是隱喻識別、理解與生成的重要知識資源。
3.重點探索了名詞短語隱喻的識別技術,建造了規(guī)則和統(tǒng)計相結合的隱喻自動識別模型。
《漢語名詞短句隱喻識別研究》特別重視各種方法的比較,在書中基于規(guī)則的方法和基于統(tǒng)計的方法都有體現(xiàn),各有側重,同時也使用了多種機器學習的分類模型,通過實驗進行檢驗,并作了細致的分析與解釋。這樣的方法對于提高研究者的水平與能力是大有助益的。
正當辭牛歲、迎虎年之際,北京語言大學副教授王治敏博士發(fā)來喜訊,以她的博士論文《漢語名詞短語隱喻識別研究》為基礎的書稿即將由北京語言大學出版社出版,甚感欣慰。王治敏博士要求我為其寫序,盡管我一向認為憑自己的學識難以勝任為他人著作寫序的重任,但我還是答應了。這是平生第二次。第一次是為曲維光博士的著作《現(xiàn)代漢語詞語級歧義自動消解研究》寫序,當時是盛情難卻。這一次有所不同,作為王治敏的博士生導師,應該是義不容辭吧。還有一層原因,我覺得可以順便把這兩本書作一個比較。
我將曲維光博士的著述比喻為在自然語言處理戰(zhàn)場上“打攻堅戰(zhàn)”,王治敏的博士論文則有點像“打前哨戰(zhàn)”。為什么這么說呢?在《現(xiàn)代漢語詞語級歧義自動消解研究》之序一中我寫道:“當前自然語言處理研究的主攻方向,是讓機器能夠自動地識別和消解自然語言的歧義。曲維光博士的研究重點是詞語級的各種類型的歧義消解,這是自然語言處理研究的基本問題,已經(jīng)研究很多年了,但還沒有徹底解決,甚至離徹底解決尚有很長的路要走。這種情況一方面說明,這里有創(chuàng)新的機會和發(fā)展的空間,另一方面也說明,創(chuàng)新和發(fā)展的難度很大?梢哉f,曲維光博士是在打攻堅戰(zhàn)。”而隱喻的計算研究(包括隱喻的機器識別、理解與生成),情況就不一樣了。至少到目前為止,在中文信息處理學界,隱喻還沒有成長為受廣泛注意的研究課題,鮮有研究成果發(fā)表。王治敏自2003年至2006年在北大攻讀博士學位期問,選定隱喻作為攻關方向,并于2006年完成博士論文,環(huán)視中文信息處理的各個戰(zhàn)場,將其工作比喻為“打前哨戰(zhàn)”,也許還算貼切。
王治敏 , 女,博士,北京語言大學漢語學院副教授,碩士生導師,研究方向為計算語言學、漢語國際教育。目前主要從事隱喻計算、語言知識庫、詞匯計量研究以及對外漢語教學的理論研究與實踐。在國內(nèi)外核心期刊發(fā)表論文20多篇。
第一章 引論
1.1 問題的提出
1.2 隱喻的界定及研究方法
1.2.1 研究范圍
1.2.2 研究方法
1.2.3 研究基礎
第二章 隱喻計算研究的理論及方法
2.1 關于隱喻的認識
2.1.1 隱喻作為一種修辭現(xiàn)象
2.1.2 隱喻作為一種認知現(xiàn)象
2.2 西方隱喻的計算理解研究
2.2.1 規(guī)則推理模型的實現(xiàn)
2.2.2 以統(tǒng)計為手段的隱喻分析模型
2.2.3 隱喻知識庫的建造
2.3 漢語隱喻的計算理解研究
2.4 隱喻計算研究的啟示
2.5 本章小結
第三章 漢語名詞短語隱喻結構研究
3.1 漢語名詞隱喻的層級分布
3.1.1 構詞層級
3.1.2 詞匯層級
3.1.3 短語層級
3.1.4 句子層級
3.1.5 篇章 層級
3.2 中文信息處理中隱喻研究的定位
3.3 名詞短語隱喻結構研究
3.3.1 n+n隱喻的構成特點
3.3.2 n+n隱喻的句法約束
3.3.3 n+n隱喻的語義類考察
3.3.4 隱喻表達的其他制約因素
3.4 名詞短語隱喻所隱含的思維模式
3.5 本章小結
第四章 漢語名詞隱喻知識的形式化
4.1 漢語名詞隱喻知識庫屬性字段的設定
4.2 漢語名詞隱喻詞表的建造
4.3 漢語名詞隱喻的概念映射
4.4 隱喻概念映射分庫的建造
4.5 本章小結
第五章 基于機器學習方法+規(guī)則輔助的漢語名詞隱喻識別
5.1 訓練語料的獲取
5.2 基于實例方法的隱喻識別
5.3 基于最大熵(MaximumEntropy)方法的隱喻識別
5.4 基于樸素貝葉斯(Naive Bayes)方法的隱喻識別
5.5 特征提取
5.5.1 簡單特征的選取
5.5.2 輔助特征的選擇
5.6 輔助特征對實驗結果的影響及難點分析
5.6.1 最大熵模型輔助特征的選取實驗
5.6.2 文學語料開放測試
5.6.3 隱喻交叉實驗測試
5.6.4 難點分析
5.7 本章小結
第六章 n+n模式的隱喻識別
6.1 基于最大熵的n+n模式實驗
6.2 基于CCD詞典隱喻推理的設計原理
6.2.1 CCD詞典的消歧策略
6.2.2 CCD詞典的相似度算法
6.3 基于隱喻知識庫的識別實驗
6.4 本章小結
第七章 結語
7.1 本項研究的總結
7.2 本項研究的成果和意義
7.3 進一步研究計劃
參考文獻
附錄1 漢語名詞隱喻標注語料樣例
附錄2 漢語名詞隱喻知識庫樣例
附錄3 漢語名詞隱喻知識庫概念映射分庫樣例
后記
上述詞語的隱喻表達頻繁出現(xiàn),用法相對穩(wěn)定,而且具有這種特性的詞語不是個別情況,詞典編撰者通常會把隱喻表達所體現(xiàn)的含義標注在這些(源域)詞語上,因此,在這個意義上,可以稱之為詞匯隱喻。
既然詞匯隱喻所表達的含義在詞典中已經(jīng)沉積下來,是不是失去了描寫的必要?研究是否應該更多地關注那些新生的隱喻?不可否認,在一定的語言環(huán)境下會有新的隱喻被創(chuàng)造出來,但是由于難以獲得這樣鮮活的語料,我們的做法是從大量的真實文本中挖掘、提煉已經(jīng)沉積在文本中的隱喻表達,其中也包括在詞典中有隱喻義項的詞匯隱喻,有沒有描寫的必要還要看《現(xiàn)漢》對隱喻義項的描述是否能提供給計算機必要的知識。
目前《現(xiàn)漢》中對于隱喻義的描寫基本采用一個比喻的解釋,然后可能會提供一兩個實例,如“大潮”除了一個本義外,還有一個隱喻義項:
比喻聲勢大的社會潮流:改革的。
該種解釋是面向人的描寫,人可以根據(jù)此種解釋和相關的背景知識理解和擴展“經(jīng)濟大潮、商業(yè)大潮、文化大潮”等隱喻用法,但是計算機無法根據(jù)這條定義作相應的擴展。因此,此種簡單的描述遠不能滿足計算機的需要。