《HNC與語言學研究(第4輯)(2009)》是第四屆HNC與語言學研究學術研討會的論文集,所收錄的論文展現了HNC(HierarchicalNetWworkofConcepts,概念層次網絡)理論、語言學和語言信息處理界近些年來研究和應用研發(fā)的若干新成果。《HNC與語言學研究(第4輯)(2009)》的內容分為6個部分:(1)基礎理論和語言本體研究;(2)知識庫資源建設及其應用;(3)基礎技術研究與開發(fā);(4)機器翻譯;(5)信息檢索和抽取;(6)其他應用技術和系統(tǒng)研發(fā)!禜NC與語言學研究(第4輯)(2009)》的讀者對象包括自然語言處理、語言學、人工智能和認知科學等領域的研究者和開發(fā)者。
本書是第四屆“HNC與語言學研究學術研討會”的論文集。
HNC是概念層次網絡理論的簡稱,該理論由中國科學院聲學研究所黃曾陽先生創(chuàng)立,它的基本特征是通過構建語言概念空間來探索和模擬大腦的語言理解過程。
“HNC與語言學研究學術研討會”(簡稱“HNC研討會”)最早由語言學家邢福義先生和黃曾陽先生倡議,它有三個基本宗旨:一是搭建語言信息處理界的學術交流平臺,以碰撞促發(fā)展;二是創(chuàng)造有利于原創(chuàng)性新思想發(fā)展的學術環(huán)境,鼓勵和發(fā)揚創(chuàng)新;三是理論探索與應用實踐并重,促進學術界和產業(yè)界的溝通與互動。第一屆HNC研討會于2001年4月在華中師范大學舉行,第二屆于2003年9月在中國科學院聲學研究所舉行,第三屆于2005年12月在北京師范大學舉行。
第四屆HNC研討會于2009年11月14日至15日在北京師范大學舉行,本屆研討會留給與會者的感受可以概括為四點:第一,HNC的基礎研究和應用開發(fā)與四年前相比又取得了很大的進展,HNC團隊進一步壯大;第二,學術界和產業(yè)界對HNC理論與技術有了更多的關注和了解;第三,中文信息處理的各個方面都在不斷向前發(fā)展,新的思想、理論和技術不斷產生,各個流派之間的交流不斷擴大和加深;第四,論文作者大多是年輕的生力軍,說明我國語言信息處理的發(fā)展后繼有人。
前三屆HNC研討會的論文集,書名分別為《HNC與語言學研究》《第二屆HNC與語言學研討會論文集》《中文信息處理的探索與實踐》,本屆HNC研討會論文集的書名定為《HNC與語言學研究(第4輯)》,以后將固定采用這一名稱,只是改變括號中的數字,以與研討會的屆數對應。
本書收錄了第四屆HNC研討會上宣讀的74篇論文,分為6個部分:
1.基礎理論和語言本體研究(14篇)
2.知識庫資源建設及其應用(12篇)
3.基礎技術研究與開發(fā)(16篇)
4.應用研發(fā)之一:機器翻譯(14篇)
5.應用研發(fā)之二:信息檢索和抽取(11篇)
6.其他應用技術和系統(tǒng)研發(fā)(7篇)
其中第四部分集中反映了HNC的最新進展,即在機器翻譯方面的基礎研究和應用實踐。
本書出版時間比較倉促,編者水平也有限,如有疏漏和不妥之處,懇請讀者和論文作者批評指正。
第一部分 基礎理論和語言本體研究
把文字數據變成文字記憶
關于漢語語義概念的一點思考
概念基元空間的下沉及與詞義結構的語言對接
現代漢語空間短語的基本類型
組織名在主流媒體上的分布信息及其價值
從HNC看“從到”的語義角色及其判定
HNC與本體概念網的比較研究
面向漢語框架語義知識庫的動詞“感覺”分析
面向自然語言處理的人機語義研究
基于HNC理論的“是的”結構研究及教學
談HNC的知識表示方法
面向自然語言處理的語言本體研究
標點句的獨立性判斷
網絡流行語的敘事特點及功能
第二部分 知識庫資源建設及其應用
語義互聯網與《新編同義詞詞林》
事件描述塊句法語義標注庫的構建
釋雅例句檢索工具的需求分析
動詞詞典在漢語詞匯教學中的應用
略論基于HNC的學習型電子詞典編纂研究
HNC語義標注語料庫查詢工具的用戶需求
句群處理突破的關鍵:HNC領域句類知識庫
漢英雙語多元邏輯組合標注的基本內容
法治活動的領域句類表示式和知識描述
基于本體的多媒體教學資源管理及檢索研究
語言資源建設的理論與實踐初探
跨越語句理解的知識(庫)建設
第三部分 基礎技術研究與開發(fā)
無頭迭句與花園幽徑句的辨識與處理
英語特征語義塊構成分析及計算機處理
結合領域句類知識的省略恢復方法
面向大句處理的句類分析系統(tǒng)的設計與實現
英語非限定形態(tài)動詞分析處理
憲法句間回指模糊的消解研究
漢語理解處理中的動態(tài)詞及其組合模式
句處理與句群處理
利用讀音信息的詞語切分處理
現代漢語文本中四字語的識別
英語主輔語義塊辨識初探
中文機構名識別需要使用的知識資源
現代漢語數量短語及其自動識別的研究
HNC符號的解析及應用
中文信息處理中兼類詞研究困難的原因
HNC理論的句類假設檢驗知識與現有句類分析系統(tǒng)E語義塊識別的檢測分析
第四部分 應用研發(fā)之一:機器翻譯
形如獨立小句的原型句蛻之漢英變換
從HNC機器翻譯評測看機器翻譯發(fā)展
從一項實證研究看機器翻譯的路線之爭
面向漢英機器翻譯的格式自轉換研究
關聯于是否判斷句的迭句轉換研究——以漢英機器翻譯為視角
英語方式動詞在英漢機器翻譯中的處理分析
漢英機器翻譯中的輔塊序位研究
英漢機器翻譯中“0F”結構的處理
基于HNC理論的時間輔語義塊的漢英機器翻譯初探
塊擴句的漢英句類及句式轉換
漢語小句向英語輔塊的變換研究
漢英機器翻譯中“以為”句式的理解處理
統(tǒng)計機器翻譯的句法調序與HNC句式轉換
簡析機器翻譯軟件的需求
第五部分 應用研發(fā)之二:信息檢索和抽取
中文文本中企業(yè)并購信息的自動抽取
農業(yè)信息檢索中含單動詞和雙名詞的詞語串之語義理解策略
針對HNC理論的特殊語序結構的抽取策略——基于足球比賽報道新聞文本的抽取任務
求職簡歷信息的自動抽取
基于規(guī)則的人物關系抽取所需的語言知識研究
搜索引擎的個性化和智能化
農業(yè)信息智能檢索的知識需求分析
基于HNC理論的精確檢索方法的設計與實現
中國奧運冠軍動態(tài)信息抽取技術研究
專利文獻檢索再分類的語言知識
網絡文本中對企業(yè)產品和服務評價傾向的表達方式分析
第六部分其他應用技術和系統(tǒng)研發(fā)
基于HNC的網絡信息輿情分析系統(tǒng)應用
HNC知識檢索系統(tǒng)在專利文獻檢索中的應用
HNC在農業(yè)垂直搜索中的應用
HNC在Web日志管理中的應用探討
HNC在網站客服系統(tǒng)中的應用探討
基于向量空間模型的話題主動發(fā)現和跟蹤
漢語網絡詞典的現狀和發(fā)展方向淺析
大腦的軟件似乎也可以同計算機作某種類比,劃分為自我操作和對外服務兩個側面。前者密切聯系于CPU+MEM,后者密切聯系于(I/O,MEM,CPU)。
大腦的操作軟件有什么不同于計算機的本質區(qū)別?
HNC的答案是:大腦操作軟件存在著智能與智慧的基本差異。這里不介紹智能與智慧的定義及其HNC符號表示式,只用一個例子來表明兩者之間的巨大不同。柏拉圖與孔夫子、愷撒與拿破侖都智力超群,但兩位夫子和兩位將軍的具體智力表現可大不相同,能不能說“兩位夫子智慧超群而智能平平,兩位將軍智能超群而智慧平平”呢?好像是可以這么說的,可見,智力存在著智能與智慧的本質區(qū)分?追蜃诱怯捎谥悄芷狡蕉谧罱隽恕翱鬃,喪家犬”的命題,這命題受到許多學者的盛贊。但問題不在于盛贊或反對,而在于對先哲的基本態(tài)度。柏拉圖經歷過與孔子極為類似的境遇,但希臘人和西方人絕不會把喪家犬之類的侮辱性描述加到柏拉圖身上。尼采先生確實喊出過“上帝死了”,但絕不會超出這個限度而高喊“打倒上帝”。
數據和記憶是兩種性質截然不同的信息載體。數據僅涉及信息的量與形式,不涉及信息的質與內容,無關于智能與智慧的差異;記憶則不僅涉及信息的量與形式,更涉及信息的質與內容,有關于智能與智慧的差異。可見,記憶所要求的信息形態(tài)轉換,其難度必遠大于數據。作為一項科技課題,“高級信息形態(tài)轉換”的命運非常奇特,很像那位出塞前的王昭君。
1.4 準備迎娶“昭君”
可是,命運類似于王昭君的“高級信息形態(tài)轉換”并不是“昭君”,而是“昭君”的未來夫婿。
上面說到的那位數字化美人才是“昭君”,她還沒有找到如意郎君。上帝似乎在刻意安排一場年齡差距破歷史紀錄的姐弟戀。那位美人的芳齡已經超過了30歲,可是那位未來的新郎還沒有出世。他以胎兒的形態(tài)已經存在多年了,但還沒有降生。最近的檢查表明,胎兒發(fā)育正常,主要問題是母親營養(yǎng)不良。預產期還沒有完全確定,樂觀的估計是2012年,在座諸君應該都能趕上。不過,能在這個研討會上想象一下從“昭君出塞”到“迎娶昭君”的歷史巨變,已經是足夠欣慰的事了。