本詞表是在理解我國檔案管理行業(yè)現(xiàn)狀及需求的基礎(chǔ)上建設(shè)的。本詞表建立了檔案館藏資源知識化加工及標(biāo)引并基于人工智能開發(fā)檔案利用服務(wù)系統(tǒng),推動形成機(jī)器可理解檔案數(shù)據(jù)資源滿足人民群眾的檔案服務(wù)需求,達(dá)到以為民、便民、惠民為檔案數(shù)據(jù)利用服務(wù)的目標(biāo)。
基于以上需求,編寫組兼顧計(jì)算機(jī)和人工標(biāo)引需求,在利用已有詞表的基礎(chǔ)之上,采用計(jì)算機(jī)與人工協(xié)同的方法,編制了《政務(wù)文書檔案專業(yè)詞表》,就本詞表編制及使用,說明如下。
一、收詞規(guī)則和范圍
本詞表的構(gòu)建參考和吸收了《中國檔案主題詞表》《綜合電子政務(wù)主題詞表》《公文主題詞表》,這些經(jīng)典詞表是檔案標(biāo)引、管理和應(yīng)用服務(wù)的基礎(chǔ),凝聚了大量檔案專家和詞
政務(wù)文書檔案專業(yè)詞表
表專家的智慧,也是本詞表構(gòu)建的基礎(chǔ)。這些詞表包含了大量的基礎(chǔ)主題詞,如《中國檔案主題詞表》第二版共收錄25 891條主題詞,其中21 785條正式主題詞,4106條非正式主題詞;《綜合電子政務(wù)主題詞表》共收錄主題詞20 252條,其中正式主題詞17 421條,非正式主題詞2831條;中共中央辦公廳秘書局編制的《公文主題詞表》共收錄主題詞5116條,其中主表收詞4622條,附表收詞494條;《國務(wù)院公文主題詞表》共有15類1049個(gè)主題詞,分為主表和附表兩大部分,主表有13類751個(gè)主題詞,附表有2類298個(gè)主題詞。
但是受限于編表當(dāng)時(shí)的技術(shù)條件及黨政機(jī)關(guān)政務(wù)文書檔案的數(shù)字化程度,這些詞表在文獻(xiàn)保證原則的落實(shí)上存在一定的不足,即部分詞條在實(shí)際標(biāo)引工作中用不到,又有一些在標(biāo)引工作中有用的詞條在詞表中沒有收錄。在本詞表編制中,文獻(xiàn)保證主要依據(jù)山東省檔案館收藏的黨政機(jī)關(guān)政務(wù)文書檔案館藏資源進(jìn)行分析統(tǒng)計(jì)篩選。
此外,中國共產(chǎn)黨全國代表大會報(bào)告和歷次全國人民代表大會上的政府工作報(bào)告能夠相對□□體現(xiàn)中央精神,對于各級黨政機(jī)關(guān)的政務(wù)文書具有一定的引導(dǎo)性。因此,對這部分語料單獨(dú)加工處理。中國共產(chǎn)黨自 1921年建黨以來已經(jīng)舉行過 19次全國代表大會,但是前 7次全國代表大會都在中華人民共和國成立前,中華人民共和國成立后前期周期不固定,后期才逐步穩(wěn)定下來,從 1956年至今共舉行了 12次全國代表大會,因此集中選取中華人民共和國成立后的中國共產(chǎn)黨第八次到第十九次全國代表大會報(bào)告正文,由于大會間隔時(shí)間相對較長,因此將改革開放以來部分全會上的體現(xiàn)黨和政府工作方針的重要決定、決議也收錄進(jìn)來。中央政府工作報(bào)告既有對過去工作的總結(jié),也有對未來工作的規(guī)劃,能夠較大程度上覆蓋公文檔案內(nèi)容,采集中央政府網(wǎng)站上公開的 1954—2019年歷年中央政府工作報(bào)告共 51份。將這些共同作為語料庫,利用新詞發(fā)現(xiàn)工具對語料進(jìn)行分析篩選和人工審定,尤其注重近年來常用的黨政機(jī)關(guān)政務(wù)文書檔案詞語。
本詞表收錄主題詞及其相關(guān)詞兼顧自動標(biāo)引的處理便利性,不選用注釋性內(nèi)容,便于計(jì)算機(jī)在原文中發(fā)現(xiàn)相關(guān)詞條,如將“輸出(貿(mào)易)”修改為“輸出”,盡管從單個(gè)詞條方面可能產(chǎn)生歧義,但是可以通過多個(gè)標(biāo)引詞相互參照來排除歧義。此外,存在一些詞語的規(guī)范表達(dá)不斷發(fā)展變化的情況,如“毛難族”目前用“毛南族”,但是考慮到檔案的時(shí)間跨度較大,目前不用的詞條也盡可能收錄在本詞表中。
二、用詞關(guān)系設(shè)置及調(diào)整
本詞表的關(guān)系主要有兩個(gè)來源:一是從已有詞表借鑒,二是通過關(guān)系推薦工具。從已有詞表借鑒的關(guān)系做了簡化調(diào)整,只記錄詞條之間的相關(guān)性,不具體區(qū)分其用、代、屬、分、參等具體關(guān)系類型。關(guān)系推薦是自動發(fā)現(xiàn)潛在的詞間關(guān)系,并根據(jù)一定的規(guī)則加以推薦的技術(shù)。具體而言,針對山東省檔案館語料庫和詞表,計(jì)算給定的詞條(主要是通過新詞發(fā)現(xiàn)給出的無關(guān)系的詞條)與已有詞表中的詞條可能存在的關(guān)系。關(guān)系推薦有兩條技術(shù)路徑:□□條路徑是基于半結(jié)構(gòu)化信息的處理,在語料資源中存在一些半結(jié)構(gòu)化數(shù)據(jù),如標(biāo)引了字段名稱結(jié)構(gòu),可以將后續(xù)內(nèi)容歸結(jié)為這一字段的分項(xiàng)關(guān)系詞,在關(guān)鍵詞或者主題
說 明
詞字段共現(xiàn)的詞條作為相關(guān)關(guān)系推薦;第二條路徑是根據(jù)語料共現(xiàn)信息,將某一分詞后的語料,先選定一個(gè)目標(biāo)詞,然后根據(jù)分詞結(jié)果按照一定的窗口前后定位,根據(jù)相距位置的遠(yuǎn)近分別賦予不同的相關(guān)性權(quán)值,然后將不同文檔中的相關(guān)詞的權(quán)值累加起來。兩條路徑□后都需要根據(jù)統(tǒng)計(jì)結(jié)果分別排序,并將兩種方法的結(jié)果進(jìn)行加權(quán)計(jì)算,形成□終的關(guān)系推薦結(jié)果。
關(guān)系處理時(shí),對于一些可以通過詞形包含直接發(fā)現(xiàn)的關(guān)系詞(實(shí)際上主要是屬分關(guān)系和部分用代關(guān)系)不加收錄,如“愛國運(yùn)動”的相關(guān)詞包括“運(yùn)動”一詞,但是無論計(jì)算機(jī)自動標(biāo)引還是人工標(biāo)引,都可以通過詞形直接發(fā)現(xiàn)其相關(guān)詞“運(yùn)動”,因而不必單獨(dú)收錄。因此,本詞表中的詞間關(guān)系也并不全是對稱結(jié)構(gòu),如“運(yùn)動”一詞的相關(guān)詞中就包含“愛國運(yùn)動”,因?yàn)檫@樣的語義細(xì)分的詞條是無法從詞形上推斷出來的,相關(guān)詞的收錄對于細(xì)化標(biāo)引工作具有一定的參考價(jià)值。
三、取詞舉例
本詞表共收錄主題詞 10 482條,共有相關(guān)關(guān)系 28 094條,本詞表是非對稱的結(jié)構(gòu),每個(gè)詞條僅列舉其無法通過詞形推斷出來的相關(guān)詞。樣例如下所示。
2.“八個(gè)明確”:執(zhí)政理念
其中,“2”是序號,通過“.”與正式的內(nèi)容分隔開,正式內(nèi)容中主題詞與相關(guān)詞通過冒號分隔,冒號前的“八個(gè)明確”為主題詞,冒號后的“執(zhí)政理念”為相關(guān)詞,針對特定主題詞可以查找其相關(guān)詞。
如果有 2條以上的相關(guān)詞以“;”分隔,樣例如下所示。
83.奧運(yùn)會:奧林匹克運(yùn)動會;冬季奧運(yùn)會;特奧會;運(yùn)動會
冒號前的“奧運(yùn)會”為主題詞,冒號后的“奧林匹克運(yùn)動會”“冬季奧運(yùn)會”“特奧會”“運(yùn)動會”為相關(guān)詞。如果擬采用“奧運(yùn)會”標(biāo)引,可以參考這些相關(guān)詞進(jìn)行標(biāo)引,如考慮采用全稱或者具體細(xì)化、更通用的名稱。
本詞表按音序排列,將一些特殊的以標(biāo)點(diǎn)符號、字母等開頭的主題詞置于詞表前部,這樣排序可以方便在人工標(biāo)引時(shí)查詢使用。
四、使用方法
本詞表可以單獨(dú)使用,在確定某一候選主題詞后,在本詞表查詢其相關(guān)詞,確定其相關(guān)詞是否更適合標(biāo)引使用。人工標(biāo)引人員可以利用本詞表調(diào)整選用合適的主題詞;自動標(biāo)引工具也可以根據(jù)相關(guān)詞作主題詞的擴(kuò)展和篩選。
本詞表可以配合已經(jīng)長期使用的其他主題詞表聯(lián)合應(yīng)用,一方面可以補(bǔ)充和豐富這些詞表;另一方面可以提供近年來黨政機(jī)關(guān)的政務(wù)公文中常見主題的主題詞及其相關(guān)詞。
本詞表的編制是一種探索與嘗試,由于水平所限,經(jīng)驗(yàn)不足,其中還存在一些錯(cuò)誤和不足,敬請讀者和應(yīng)用者批評指正,以使詞表通過不斷修訂更加臻于完善。