中文字幕久久综合伊人,青青人亚洲av永久无码精品无 ,精品一卡2卡3卡4卡新区在线

本書為一本運(yùn)用計算機(jī)圖形分析、人工智能等方法，對外國留學(xué)生的手寫漢字進(jìn)行書寫分析的研究文集。中國的漢字對于外國留學(xué)生來說，有一定的書寫難度，筆畫的順序，書寫的錯誤等常見問題，本書作者運(yùn)用現(xiàn)代化的技術(shù)，對我國留學(xué)生的手寫漢字進(jìn)行了分割、識別，筆畫匹配和書寫錯誤提取等操作，在分析研究的基礎(chǔ)上歸納總結(jié)了研究成果，為日后留學(xué)生手寫漢字的書寫質(zhì)量評價、改進(jìn)指導(dǎo)等工作給出了科學(xué)的結(jié)論和解決方法。該書的研究具有一定的創(chuàng)新性。

外國留學(xué)生的手寫漢字因其母語及漢語水平的影響，會出現(xiàn)多種類型的書寫錯誤，這是漢語國際教育中漢字教學(xué)的難點(diǎn)之一。采用數(shù)碼紙筆采集的外國留學(xué)生手寫漢字含有筆畫及其采樣點(diǎn)的時間和空間等信息，從而可以有效地分析其書寫過程，有利于提取各種書寫錯誤。筆畫錯誤是提取部件和整字錯誤的數(shù)據(jù)基礎(chǔ)，它需要漢字識別和筆畫匹配等處理過程，這些內(nèi)容已有較多研究，但外國留學(xué)生手寫漢字具有多樣和更復(fù)雜的筆畫錯誤。本研究識別具有筆畫錯誤的漢字，匹配書寫筆畫與模板筆畫，并提取多種筆畫錯誤，將語言學(xué)與應(yīng)用語言學(xué)、漢字構(gòu)形學(xué)與信息科學(xué)中的模式識別、計算機(jī)圖形學(xué)、人工智能等多個領(lǐng)域相結(jié)合。在此基礎(chǔ)上可以進(jìn)行有針對性的書寫質(zhì)量評價、改進(jìn)指導(dǎo)等方面的研究，具有良好的發(fā)展前景。

本書圍繞外國留學(xué)生手寫漢字筆畫錯誤提取的智能處理方法的重點(diǎn)和難點(diǎn)問題開展了研究工作，主要包括：

（1）作為識別、錯誤分析等后續(xù)工作的前提和基礎(chǔ)，在手寫漢字的分割技術(shù)中，重點(diǎn)討論了單字提取方法。結(jié)合外國留學(xué)生的手寫漢字特點(diǎn)，書中提出了一種基于多層次信息的單字提取方法，其中包括了遞歸分割方法和面向錯誤分類的分割方法，并給出了相應(yīng)的自適應(yīng)可視化表示及交互校正方法。

（2）手寫漢字筆畫匹配以參考的模板漢字為基準(zhǔn)，通過漢字識別結(jié)果進(jìn)行檢索。留學(xué)生手寫漢字存在多種錯誤，在樣本有限的情況下，需要充分發(fā)掘漢字本身的書寫信息和結(jié)構(gòu)特征。因此，書中提出了一種基于書寫層次信息的漢字識別方法。從書寫筆畫出發(fā)，根據(jù)其識別結(jié)果和部件結(jié)構(gòu)分類，實現(xiàn)漢字識別。方法首先用中心線將漢字部件結(jié)構(gòu)分為左右、上下和其他三類。然后根據(jù)部件結(jié)構(gòu)分類，從字庫中初步篩選出候選字；再使用隱馬爾可夫模型及隱條件隨機(jī)場識別漢字中每個筆畫，根據(jù)書寫時序信息組成筆畫名稱序列；最后根據(jù)筆畫名稱序列，對候選字進(jìn)行最終的篩選，給出識別結(jié)果。

（3）筆畫匹配是書寫錯誤提取和書寫質(zhì)量評價的基礎(chǔ)。留學(xué)生手寫漢字筆畫錯誤不僅體現(xiàn)在整個筆畫上，例如拆筆、連筆、多筆、少筆、筆順和筆向錯誤，還體現(xiàn)在筆畫局部上，例如殘筆和余筆。書中提出了基于遺傳算法的筆畫匹配方法。方法以模板筆畫個數(shù)為基因進(jìn)行整數(shù)編碼，根據(jù)書寫筆畫個數(shù)確定染色體長度；根據(jù)書寫筆畫的結(jié)構(gòu)特征構(gòu)造適應(yīng)度函數(shù)，采用精英算法的選擇策略執(zhí)行進(jìn)化過程；在適應(yīng)度函數(shù)均值平穩(wěn)時，停止進(jìn)化得到最優(yōu)解。

（4）人機(jī)交互校正可以獲取正確的實驗對比數(shù)據(jù)，是驗證所提方法有效性的必要步驟。而筆畫匹配結(jié)果的可視化是人機(jī)交互的前

提條件，有效的可視化方法可以減輕校正者的認(rèn)知負(fù)擔(dān)，提高工作效率。針對筆畫匹配結(jié)果，提出了一種多感知層次的可視化方法。根據(jù)筆畫匹配結(jié)果的特點(diǎn)及其包含的信息量，采用顏色、圖形符號、數(shù)字序號等多感知層次相結(jié)合的方法進(jìn)行可視化。同時，提出了一種針對筆畫匹配結(jié)果的人機(jī)交互校正方法，使用標(biāo)記列表的方法將數(shù)據(jù)進(jìn)行處理，簡化了校正過程。

（5）筆畫錯誤的提取是漢字書寫研究的重要步驟。留學(xué)生書寫習(xí)慣和特點(diǎn)差異性大，使用規(guī)則的預(yù)設(shè)方法難以適用。因此，本書基于精確的筆畫匹配結(jié)果提出了一種筆畫錯誤的自適應(yīng)提取方法。根據(jù)手寫漢字筆畫匹配后給出的標(biāo)記列表，分層次地自適應(yīng)提取書寫筆畫錯誤，包括全局錯誤以及局部錯誤。

為驗證所提方法的有效性，本書采集了來自14個國家的外國留學(xué)生的手寫漢字共計19000余份，涵蓋500余種字形。對所提方法開發(fā)了原型系統(tǒng)，對漢字識別、筆畫匹配、可視化與人機(jī)交互校正、筆畫錯誤提取進(jìn)行了實驗，結(jié)果表明所提方法是有效的。根據(jù)學(xué)生的漢字學(xué)習(xí)過程，原型系統(tǒng)在真實教學(xué)場景中進(jìn)行了跟蹤實驗，結(jié)果表明所提方法性能穩(wěn)定。

第一章緒論

1.1選題背景

漢字是漢語書寫用的文字，狹義指以正楷作為標(biāo)準(zhǔn)寫法的漢字。因形狀方正，漢字有“方塊字”之稱。從結(jié)構(gòu)上來看，漢字字體規(guī)整，每個字占據(jù)幾乎同樣的空間。由表意象形字根如金、木、水、火、土等，像積木一樣組合而成。漢字包括獨(dú)體字和合體字，獨(dú)體字不能分割，合體字由部件組合構(gòu)成，占漢字?jǐn)?shù)量的90%以上。漢字的部件包括獨(dú)體字、偏旁部首和其他不成字部件。漢字的合體結(jié)構(gòu)有12種，分為：左右、上下、左中右、上中下、左上包、右上包、左三包、左下包、上三包、下三包、全包圍和鑲嵌結(jié)構(gòu)。

筆畫是漢字的最小構(gòu)成單位，指一次連續(xù)寫成的線條。筆畫分為橫、豎、撇、捺、點(diǎn)、提等31個基本種類。書寫漢字時，筆畫出現(xiàn)的先后順序，即“筆順”，是比較固定的，其基本規(guī)則是，先橫后豎，先撇后捺，從上到下，從左到右，先外后內(nèi)，先外后內(nèi)再封口，先中間后兩邊。筆畫的數(shù)目、形狀、空間組合關(guān)系等因素構(gòu)成了漢字形體區(qū)別特征，這是文字形體的一個基本屬性。

在漢語國際教育逐步推廣的背景下，漢語教學(xué)往往把培養(yǎng)留學(xué)生的交際能力放在首位，同時使其具備運(yùn)用漢語進(jìn)行聽說讀寫的能力，其中的讀和寫會涉及漢字。從書寫元素看，在組成常用漢字的筆畫中，橫、豎、撇、點(diǎn)、捺、提的使用頻率為77.82%，而書寫元素的重復(fù)率、結(jié)構(gòu)單位的相似度越高,結(jié)構(gòu)方式的一致性越大,漢字形體所提供的區(qū)分度就越小，書寫的錯誤率也就會越高。所以，筆畫的書寫錯誤將直接導(dǎo)致部件乃至整字的錯誤。

對于留學(xué)生書寫漢字最早采用紙筆的傳統(tǒng)模式進(jìn)行采集和記錄，授課教師通過課上實時觀察進(jìn)行指導(dǎo)或課后收取紙質(zhì)作業(yè)進(jìn)行評判教學(xué)。然而，在傳統(tǒng)的課堂教學(xué)中，教師即便積極觀察，也很難全面了解到學(xué)生在課堂上的學(xué)習(xí)情況，尤其是漢字書寫的具體情況，更難以對每個學(xué)生的漢字書寫過程進(jìn)行及時指導(dǎo)。不僅如此，在課后作業(yè)的評改中，傳統(tǒng)紙筆的記錄方式難以讓教師直觀了解學(xué)生漢字書寫的動態(tài)過程，因而無法全面知曉學(xué)生在課后的漢字掌握情況。同時，通過教師在批改中批注給學(xué)生的反饋糾正，如漢字書寫的示范，學(xué)生也無法去準(zhǔn)確地了解筆畫的書寫順序和特點(diǎn)，只能看到一個完成版的“畫像”。

在將學(xué)生書寫的漢字記錄輸入計算機(jī)的時候，早期研究者將紙版記錄通過照相、掃描等方式轉(zhuǎn)為數(shù)字圖像文件，并保存在計算機(jī)中。后來，有學(xué)者使用攝像機(jī)對學(xué)生的書寫過程進(jìn)行實時拍攝，將形成的視頻文件保存于計算機(jī)中。該方法可以較完整地記錄學(xué)生的書寫過程，但不足之處在于視頻文件往往容量較大，不利于保存和傳輸。

數(shù)字墨水的出現(xiàn)，有效地解決了這些不足，它利用手寫板、數(shù)碼筆等筆式輸入設(shè)備書寫文字，書寫軌跡通過定時采樣輸入計算機(jī)中。

近些年不少學(xué)者在漢字智能教學(xué)方面一直在不停探索[7-9]，開發(fā)出了一些可以應(yīng)用于實際的漢字教學(xué)軟件系統(tǒng)[10-14]。常見的練字系統(tǒng)通常采用的是漢字處理機(jī)制，即用戶輸入一個漢字，軟件系統(tǒng)對用戶輸入的每一筆或?qū)φ诌M(jìn)行處理反饋。

隨著數(shù)據(jù)采集設(shè)備的升級和大數(shù)據(jù)量處理的需要，數(shù)字墨水?dāng)?shù)據(jù)批量采集和處理分析的處理流程和練字系統(tǒng)有較大不同。因此，本書提出的漢字書寫的分析系統(tǒng)總體來說，首先使用數(shù)據(jù)采集設(shè)備批量采集數(shù)字墨水?dāng)?shù)據(jù)后輸入計算機(jī)系統(tǒng)，再對筆畫數(shù)據(jù)進(jìn)行單字分割和漢字識別提取出書寫字，在模板庫中檢索出對應(yīng)的模板字，再將書寫字與模板字進(jìn)行筆畫匹配，進(jìn)行人機(jī)交互校正后，根據(jù)匹配結(jié)果進(jìn)行分析、檢測書寫錯誤，如圖1所示。

對以西文為母語的留學(xué)生來說，尤其是初學(xué)者，對于漢字的結(jié)構(gòu)特征和書寫習(xí)慣不熟悉不了解，把漢字當(dāng)作符號進(jìn)行勾畫，畫出來的字千差萬別，這屬于系統(tǒng)前階段的錯誤。而漢字教學(xué)經(jīng)常是重理據(jù)而輕字形，導(dǎo)致一些中高級階段的留學(xué)生仍有很多書寫錯誤，從而影響整體的漢語水平。因此，對于書寫錯誤的研究，尤其是筆畫錯誤的研究很有必要。

1.2研究問題

在對留學(xué)生數(shù)字墨水漢字書寫錯誤的研究中，雖然前人已經(jīng)做了大量的工作和嘗試，但仍存在一些需要優(yōu)化和急需解決的問題，在單字分割、漢字識別、筆畫匹配、人機(jī)交互校正和錯誤提取等方面都有一些需要優(yōu)化的地方。本書研究的問題涵蓋以下內(nèi)容。

（1）針對數(shù)字墨水漢字的自動分割技術(shù)。在數(shù)字墨水的計算技術(shù)中，墨水的分割技術(shù)非常重要，是數(shù)字墨水的結(jié)構(gòu)化編輯和識別的基礎(chǔ)。它包括自動分割、分割結(jié)果的可視化和校正。自動分割指從原始筆跡中快速準(zhǔn)確地提取單字、文本行和文本段。在中文數(shù)字墨水文本的分割技術(shù)中，由于文本行和文本段之間一般有天然的間隔，分割處理中對于行提取和段提取相對容易。本書將研究重點(diǎn)放在單字提取上，重點(diǎn)研究單字提取方法、單字提取結(jié)果的可視化方法及針對單字提取結(jié)果的交互式校正方法。

（2）存在書寫錯誤的留學(xué)生手寫漢字的識別。漢字的識別是書寫漢字智能分析的基礎(chǔ)，雖然中文漢字識別技術(shù)已經(jīng)實現(xiàn)了較高的識別率，但現(xiàn)有的方法從特征提取到分類器的訓(xùn)練，從訓(xùn)練樣本到測試數(shù)據(jù)，大都以中文母語者為研究對象。而留學(xué)生所寫的漢字和母語者在筆畫結(jié)構(gòu)特征和書寫習(xí)慣上有很多不同[16]，特別是當(dāng)出現(xiàn)書寫的錯誤的情況時，漢字結(jié)構(gòu)特征的改變會增加識別的難度。因此，需要提出針對留學(xué)生書寫特點(diǎn)和存在書寫錯誤的手寫漢字的識別方法。

（3）面向書寫錯誤提取的筆畫匹配方法。筆畫匹配是書寫錯誤分析的主流方法和前提條件，基于模板字的筆畫匹配本身可看作一種組合優(yōu)化問題。留學(xué)生書寫質(zhì)量的千差萬別使得問題的規(guī)模和復(fù)雜程度增大，尤其是存在書寫錯誤的筆畫，無論是整個筆畫錯誤還是筆畫局部錯誤，都使得筆畫匹配問題不僅僅是一種組合優(yōu)化問題，還需要考慮問題所處理數(shù)據(jù)的級別。因此，需要提出自適應(yīng)的筆畫匹配方法，使得匹配結(jié)果對于不同類型的書寫錯誤都有較好的針對性。

（4）針對筆畫匹配結(jié)果的可視化及人機(jī)交互校正方法。由于系統(tǒng)自動方法難以得到完全正確的數(shù)據(jù)結(jié)果，所以作為評價所提方法性能的必要條件，需要進(jìn)行人機(jī)交互校正得到正確的數(shù)據(jù)進(jìn)行對比實驗。有效的人機(jī)交互方法，可以減少時間成本，提高效率。人機(jī)交互之前，需要針對筆畫匹配結(jié)果進(jìn)行可視化表示，才能使校正者進(jìn)行視覺感知，完成校正。有效的可視化方法可以減輕認(rèn)知負(fù)擔(dān)，同時準(zhǔn)確表示需要顯示的信息。因此，需要設(shè)計針對筆畫匹配結(jié)果的可視化方法并在此基礎(chǔ)上進(jìn)行人機(jī)交互校正。

（5）留學(xué)生書寫筆畫錯誤提取的方法。在漢語教學(xué)研究中，針對漢字書寫錯誤研究，前人做出了大量的工作。然而，研究對象多以中文母語者為主，與之相比留學(xué)生的書寫習(xí)慣和特點(diǎn)差異較大；此外，研究對于書寫錯誤的分類大都以專家系統(tǒng)為主的經(jīng)驗規(guī)則展開，方法的主觀性及書寫數(shù)據(jù)的隨意性的矛盾使提取結(jié)果難以穩(wěn)定。因此，需要從書寫數(shù)據(jù)本身出發(fā)，通過動態(tài)生成的筆畫匹配結(jié)果提取筆畫錯誤。

1.3本書工作

本書針對上述問題，做了以下的工作。

（1）面向中文數(shù)字墨水文本的單字提取技術(shù)。從分割算法、可視化方法和交互校正三個方面對數(shù)字墨水的單字提取問題進(jìn)行討論，針對中文數(shù)字墨水文本中單字特點(diǎn)，提出了遞歸分割方法；針對單字提取結(jié)果中的錯誤類型，提出了面向錯誤分類的分割方法；針對單字提取結(jié)果的重疊問題，提出了自適應(yīng)可視化方法；為提高校正提取結(jié)果的效率，提出了單字提取結(jié)果的可信度評價指標(biāo)和基于可信度的可視化方法；通過分析用戶的校正意圖并結(jié)合可視化的圖形，提出了以可視化圖形為參考對象和輔助工具，符合用戶意圖的交互式校正方法。

（2）采用書寫層次模型的漢字識別方法及其改進(jìn)方法。本書針對留學(xué)生書寫習(xí)慣及特點(diǎn)，從筆畫、部件結(jié)構(gòu)及整字筆畫名稱序列等書寫元素出發(fā)，根據(jù)不同層次結(jié)構(gòu)特點(diǎn)進(jìn)行優(yōu)化，進(jìn)而識別漢字。首先以整字中心線為依據(jù)將書寫字的部件結(jié)構(gòu)按上下、左右及其他進(jìn)行分類；根據(jù)部件分類結(jié)果對在候選字庫中進(jìn)行篩選；再通過7900余份手寫數(shù)據(jù)訓(xùn)練了一個基于隱馬爾可夫模型的筆畫分類器；接著使用這個分類器將書寫漢字中每個筆畫進(jìn)行識別，根據(jù)書寫時序信息組成筆畫名稱序列；最后在篩選庫中根據(jù)筆畫名稱序列進(jìn)行二次篩選，給出識別備選字。此外，書中還進(jìn)一步改進(jìn)了筆畫分類器，采用隱條件隨機(jī)場模型進(jìn)一步提升了識別率。

你還可能感興趣

我要評論