關(guān)于我們
書單推薦
新書推薦
|
漢語口語測試評分員評價(jià)研究
口語測試是一種常見的考試類型,評分涉及的因素比較復(fù)雜,需要通過評分員評分。本文以漢語口語測試的評分員為研究對象,提出了評分員評價(jià)指標(biāo),構(gòu)建了評價(jià)評分員的理論體系,并進(jìn)行了實(shí)證研究,對評價(jià)體系及評價(jià)方法的有效性進(jìn)行檢驗(yàn)。此項(xiàng)研究對于口語測試的理論和實(shí)踐都有重要意義,特別是對于評分員的研究和管理具有現(xiàn)實(shí)意義。
評分員的質(zhì)量直接關(guān)系到口語測試的信度和效度,是測驗(yàn)開發(fā)者的設(shè)計(jì)初衷能否實(shí)現(xiàn)的關(guān)鍵。很多研究顯示,不同評分員的評分過程差異很大。我們應(yīng)該如何評價(jià)一個(gè)口語測試的評分員,是口語測試研究需要解決的問題。本書指出了評分員評價(jià)的根本目的在于提高評分員的評分質(zhì)量,以保證口語測試的信度、效度,在評價(jià)評分員時(shí)要貫徹科學(xué)性、操作性、導(dǎo)向性、激勵(lì)性和人本性等原則。
黃霆瑋,女,博士,北京華文學(xué)院講師。2011年畢業(yè)于中國社會(huì)科學(xué)院語言所,獲得博士學(xué)位,主要研究領(lǐng)域?yàn)檎Z言測試、華文教育與測試。先后在《世界漢語教學(xué)》《中國考試》等刊物發(fā)表論文數(shù)篇,編寫專著《華文測試與教學(xué)評估研究》一部,并參與了《語言測試概論》《普通話水平測試概論》等教材的編寫。
目錄
第1章緒論……………………………………………001
1.1研究緣起………………………………………………001
1.1.1口語測試的發(fā)展……………………………………001
1.1.2評分員評價(jià)體系研究現(xiàn)狀…………………………002
1.2研究思路………………………………………………004
1.2.1研究目的和內(nèi)容……………………………………004
1.2.2研究方法……………………………………………005
1.3研究意義………………………………………………007
1.3.1理論意義……………………………………………007
1.3.2實(shí)踐意義……………………………………………008
第2章口語測試及其評分員…………………………011
2.1引言……………………………………………………011
2.2口語和口語測試………………………………………011
2.2.1口語的定義…………………………………………011
2.2.2口語測試……………………………………………014
2.2.3語言能力……………………………………………016
2.3口語測試實(shí)踐…………………………………………026
2.3.1國外口語測試發(fā)展概況……………………………026
2.3.2國內(nèi)口語測試發(fā)展概況……………………………030
2.4漢語口語測試評分員…………………………………037
2.4.1評分員的分類………………………………………037
2.4.2評分員的特點(diǎn)………………………………………041
2.5評分員培訓(xùn)和評價(jià)……………………………………044
2.5.1評分員培訓(xùn)…………………………………………044
2.5.2評分員評價(jià)…………………………………………050
2.6本章小結(jié)………………………………………………058
第3章理論基礎(chǔ)………………………………………061
3.1引言……………………………………………………061
3.2構(gòu)建評分員評價(jià)體系的目的…………………………061
3.3構(gòu)建評分員評價(jià)體系的原則…………………………063
3.3.1人本性原則…………………………………………063
3.3.2科學(xué)性原則…………………………………………063
3.3.3系統(tǒng)性原則…………………………………………064
3.3.4操作性原則…………………………………………064
3.3.5激勵(lì)性原則…………………………………………065
3.3.6導(dǎo)向性原則…………………………………………065
3.4構(gòu)建評分員評價(jià)體系的作用…………………………066
3.4.1選拔…………………………………………………066
3.4.2診斷…………………………………………………067
3.4.3分?jǐn)?shù)調(diào)整……………………………………………068
3.4.4研究…………………………………………………069
3.5理論來源………………………………………………070
3.5.1人力資源管理理論…………………………………070
3.5.2系統(tǒng)論………………………………………………072
3.5.3人才測評理論………………………………………074
3.5.4語言測試?yán)碚摗?76
3.6本章小結(jié)………………………………………………078
第4章研究假設(shè)………………………………………081
4.1引言……………………………………………………081
4.2評價(jià)體系研究的前提…………………………………081
4.2.1評分員的價(jià)值可量化………………………………081
4.2.2評分員價(jià)值是穩(wěn)定的………………………………082
4.2.3評分員價(jià)值可正常發(fā)揮……………………………082
4.3評分員評價(jià)體系的構(gòu)建………………………………082
4.3.1現(xiàn)有評分員評價(jià)體系述評…………………………082
4.3.2評分員評價(jià)體系框架………………………………086
4.4評分員“績效”評價(jià)體系的構(gòu)建……………………090
4.4.1現(xiàn)有評分員“績效”評價(jià)方式述評………………091
4.4.2確定評分員“績效”評價(jià)指標(biāo)……………………095
4.4.3“績效”評價(jià)指標(biāo)的權(quán)重問題……………………098
4.5本章小結(jié)………………………………………………099
第5章評分員嚴(yán)厲度研究……………………………101
5.1引言……………………………………………………101
5.2嚴(yán)厲度定義……………………………………………101
5.3關(guān)于嚴(yán)厲度的研究……………………………………103
5.3.1國外相關(guān)研究………………………………………103
5.3.2國內(nèi)相關(guān)研究………………………………………104
5.4多面Rasch模型…………………………………………109
5.4.1模型介紹……………………………………………109
5.4.2常用軟件……………………………………………112
5.4.3模型應(yīng)用領(lǐng)域………………………………………112
5.5實(shí)證研究………………………………………………116
5.5.1研究假設(shè)……………………………………………116
5.5.2研究對象……………………………………………117
5.5.3研究方法……………………………………………118
5.5.4研究步驟……………………………………………118
5.5.5結(jié)果分析……………………………………………120
5.5.6結(jié)論…………………………………………………124
5.6嚴(yán)厲度評價(jià)效度檢驗(yàn)…………………………………126
5.6.1偏離趨勢檢驗(yàn)………………………………………126
5.6.2偏離量檢驗(yàn)…………………………………………128
5.7本章小結(jié)………………………………………………135
第6章評分員一致性研究……………………………137
6.1引言……………………………………………………137
6.2一致性定義……………………………………………137
6.3一致性和信度…………………………………………138
6.3.1信度概念的演變……………………………………138
6.3.2信度的重要性………………………………………147
6.3.3一致性和信度的比較………………………………149
6.4實(shí)證研究………………………………………………151
6.4.1研究假設(shè)……………………………………………151
6.4.2統(tǒng)計(jì)結(jié)果分析………………………………………151
6.4.3結(jié)論…………………………………………………154
6.5一致性評價(jià)的效度檢驗(yàn)………………………………155
6.5.1對區(qū)間上限的檢驗(yàn)…………………………………155
6.5.2對區(qū)間下限的檢驗(yàn)…………………………………159
6.6本章小結(jié)………………………………………………160
第7章評分員內(nèi)化評分標(biāo)準(zhǔn)研究……………………163
7.1引言……………………………………………………163
7.2內(nèi)化評分標(biāo)準(zhǔn)的內(nèi)涵及鑒別…………………………163
7.2.1定義…………………………………………………163
7.2.2研究方法述評………………………………………164
7.3漢語口語測試的相關(guān)研究……………………………168
7.3.1普通話水平測試的相關(guān)研究………………………168
7.3.2漢語水平考試(高等)口試的相關(guān)研究…………171
7.4實(shí)證研究………………………………………………173
7.4.1研究假設(shè)……………………………………………174
7.4.2研究對象……………………………………………174
7.4.3研究方法……………………………………………175
7.4.4研究步驟……………………………………………176
7.4.5統(tǒng)計(jì)結(jié)果分析………………………………………177
7.4.6結(jié)論…………………………………………………181
7.5本章小結(jié)………………………………………………181
第8章結(jié)論……………………………………………183
8.1評分員評價(jià)體系的確立………………………………183
8.2評分員評價(jià)體系的應(yīng)用………………………………186
8.3創(chuàng)新之處………………………………………………188
8.3.1理論創(chuàng)新……………………………………………188
8.3.2方法創(chuàng)新……………………………………………189
8.4研究展望………………………………………………190
參考文獻(xiàn)……………………………………………………191
附錄………………………………………………………201
致謝………………………………………………………217
圖表目錄
表2.1技能——成分說的語言能力…………………………………………………017
表2.2普通話水平測試國測員培訓(xùn)班培訓(xùn)內(nèi)容……………………………………046
表4.1漢語口語測試評分員“素質(zhì)”評價(jià)指標(biāo)……………………………………088
表4.2漢語口語測試評分員“能力”評價(jià)指標(biāo)……………………………………089
表5.112名應(yīng)試人背景信息表………………………………………………………117
表5.2評分員信息數(shù)據(jù)庫(選段)……………………………………………………119
表5.3評分員信息數(shù)據(jù)庫(選段)……………………………………………………119
表5.4HSK(高等)口試等級分?jǐn)?shù)轉(zhuǎn)化表…………………………………………120
表5.5應(yīng)試人實(shí)測成績名次和能力值名次比較……………………………………121
表5.6評分員評分結(jié)果總表(選段)…………………………………………………127
表5.76名評分員評分結(jié)果復(fù)評情況表………………………………………………130
表6.1異常評分員嚴(yán)厲度、一致性值………………………………………………156
表6.2異常評分員評分情況表………………………………………………………157
表6.312位應(yīng)試人分組情況表………………………………………………………158
表7.1評分員類型結(jié)果(異質(zhì)程度15)………………………………………………179
表7.2評分員類型結(jié)果(異質(zhì)程度10)………………………………………………180
表7.3內(nèi)化評分標(biāo)準(zhǔn)異常評分員的評分質(zhì)量………………………………………180
表8.1漢語口語測試評分員評價(jià)指標(biāo)………………………………………………184
圖2.1“語言能力一元化”模型………………………………………………………019
圖2.2Bachman的語言能力交際模型………………………………………………021
圖2.3Bachman的語言能力結(jié)構(gòu)……………………………………………………022
圖4.1人事評價(jià)體系框架的改進(jìn)……………………………………………………085
圖4.2漢語口語測試評分員評價(jià)體系框架…………………………………………087
圖5.15位評分員評分結(jié)果折線圖……………………………………………………128
第1章?緒論
1.1… 研究緣起
1.1.1 口語測試的發(fā)展
在語言測試中,口語測試是一種常見的考試類型,是測量應(yīng)試人口語能力最直接的一種手段。20世紀(jì)末期,Bachmam提出了著名的“語言交際能力說”。這種語言能力觀認(rèn)為語言能力不僅包括對語言系統(tǒng)知識的掌握,還包括對句子之外語言交際環(huán)境的掌握。基于“語言交際能力說”的語言測試體系強(qiáng)調(diào)測試的“真實(shí)性”和“交際性”。在這種背景下,口語測試因其符合真實(shí)性和交際性的特點(diǎn),日益受到重視。
口語測試是一種主觀測試。與客觀測試相比較,口語測試命題簡單,評分卻比較困難?谡Z測試在真實(shí)的交際環(huán)境中進(jìn)行,評分誤差的來源比較多。
如何控制口語評分的誤差,保證口語考試的信度是主觀性考試中的一個(gè)重要課題。
主觀考試評分中的誤差主要來源于測試任務(wù)、評分標(biāo)準(zhǔn)、評分量表和評分員等方面。測試任務(wù)、評分標(biāo)準(zhǔn)和評分量表等都是測驗(yàn)的開發(fā)者制訂的,處于測驗(yàn)開發(fā)者可控制范圍之內(nèi),測驗(yàn)開發(fā)者可以不斷修改、逐步完善。而評分員是測驗(yàn)開發(fā)者無法把握的一個(gè)誤差來源,評分員的表現(xiàn)可能受到各種因素的影響,是動(dòng)態(tài)的、不斷變化的。評分員評分是一個(gè)根據(jù)既定的評分標(biāo)準(zhǔn)和評分量表,給應(yīng)試人口語能力賦值的過程。評分標(biāo)準(zhǔn)和評分量表要通過評分員才能作用于應(yīng)試人。評分標(biāo)準(zhǔn)和評分量表被評分員理解、內(nèi)化,最后才應(yīng)用于被試。所以,評分員如何評分直接關(guān)系到口語測試的信度和效度,評分員的評分質(zhì)量是測驗(yàn)開發(fā)者的設(shè)計(jì)思路能否實(shí)現(xiàn)的關(guān)鍵。很多研究顯示,不同評分員評分的過程差異很大。評分員在理解、內(nèi)化評分標(biāo)準(zhǔn)時(shí)發(fā)生了什么?產(chǎn)生了哪些差異?如何描寫這種差異?不同的評分員差異反映的本質(zhì)是什么?
進(jìn)而我們要討論:這些評分員差異對評分質(zhì)量有哪些影響?什么樣的評分員的評分質(zhì)量較高?什么樣的評分員評分質(zhì)量較差?我們應(yīng)該如何評價(jià)一個(gè)口語測試的評分員?這就是本書要討論的問題。
1.1.2 評分員評價(jià)體系研究現(xiàn)狀
在主觀測試領(lǐng)域中,對評分員的研究一直是一個(gè)熱點(diǎn)。這些研究的角度不同,有關(guān)于評分員的評分方法的,有關(guān)于評分員的評分信度的,還有關(guān)于如何培養(yǎng)評分員的,但其中有關(guān)漢語口語測試評分員評價(jià)的研究不多。在我們搜集到的文獻(xiàn)中,僅有三篇是專門研究普通話評分員考核的,與我們要探討的評分員評價(jià)體系研究比較接近。
毛立群(2003)主要探討了普通話水平測試員考核體系的建立。文章首先從以下三個(gè)方面歸納了測試員隊(duì)伍的現(xiàn)狀:業(yè)務(wù)素質(zhì)、職業(yè)道德和科研進(jìn)修。在此基礎(chǔ)上結(jié)合浙江省普通話水平測試員管理的經(jīng)驗(yàn),提出了建立普通話水平測試員考核體系的設(shè)想,包括以下四點(diǎn):規(guī)范選拔程序,保證選送人員的質(zhì)量;點(diǎn)面結(jié)合,使業(yè)務(wù)素質(zhì)的考核盡量做到量化;工作量考核能客觀反映出測試員的熱情和態(tài)度;強(qiáng)調(diào)科研進(jìn)修,確立后續(xù)培訓(xùn)制度。這篇文章從普通話水平測試實(shí)踐管理出發(fā),較全面地論述了普通話水平測試員考核體系的內(nèi)涵。美中不足的是,這篇文章比較宏觀,沒有往深處挖掘考核評分員的具體指標(biāo)以及考核評價(jià)對評分員的反饋效果。
錢華(2004)的研究,是迄今為止有關(guān)普通話水平測試員考核體系的研究中較為全面的一篇。文章首先從測試實(shí)踐出發(fā),總結(jié)歸納了測試員考核中存在的問題,在此基礎(chǔ)上提出構(gòu)建測試員考核體系的意義和原則,其次提出了測試員綜合指標(biāo)體系的內(nèi)容與基本框架,最后論述了考核工作的組織實(shí)施以及考核結(jié)果的運(yùn)用。這篇文章的考核指標(biāo)體系涉及四大方面:思想素質(zhì)結(jié)構(gòu)、業(yè)務(wù)素質(zhì)結(jié)構(gòu)、身心素質(zhì)結(jié)構(gòu)和績效結(jié)構(gòu)。這四個(gè)方面作為考核體系的一級指標(biāo),每個(gè)一級指標(biāo)又具體細(xì)化為若干二級指標(biāo),最后呈現(xiàn)為26個(gè)三級指標(biāo)。這些指標(biāo)設(shè)定得非常全面,包含了《國家語言文字工作委員會(huì)關(guān)于普通話水平測試管理工作的若干規(guī)定(試行)》第十一條規(guī)定的普通話水平測試評分員的考核內(nèi)容:工作態(tài)度、測試能力、測試工作量、遵守工作紀(jì)律情況等。同時(shí),此研究還提出了考核的具體實(shí)施步驟。這篇研究從普通話水平測試員的測試實(shí)踐出發(fā),具有很強(qiáng)的參考價(jià)值,但是理論的部分還有待加強(qiáng)。
在漢語水平考試(HSK)高等口語測試的相關(guān)研究中,專門對口語測試評分員展開的研究不多。有些研究的成果可供參考,例如:關(guān)于評分誤差控制、評分員培訓(xùn)的研究,但還沒有見到專門關(guān)于口語測試評分員評價(jià)的研究。
1.2… 研究思路
1.2.1 研究目的和內(nèi)容
本文以語言測試學(xué)、人力資源評價(jià)理論為指導(dǎo),采取理論與實(shí)證相結(jié)合的方法,通過研究旨在揭示評分員評價(jià)的本質(zhì),提出構(gòu)建漢語口語測試評分員評價(jià)體系的理論依據(jù),確立漢語口語測試評分員評價(jià)體系的指標(biāo),設(shè)計(jì)評價(jià)方案,從理論與實(shí)踐兩個(gè)層面提出解決漢語口語測試評分員評價(jià)的理論體系和實(shí)施方法。
從選題視角引出口語測試、語言能力、評分員、評分員評價(jià)等基本概念,對這些口語測試中的基本概念及它們的特征做詳細(xì)論述,在此基礎(chǔ)上完成構(gòu)建包括“素質(zhì)、能力、績效”為一級評價(jià)指標(biāo)的評分員評價(jià)體系。對“素質(zhì)”、“能力”和“績效”的評價(jià)分別通過“考核”、“考試”和“考績”的方式進(jìn)行。三種評價(jià)體系中,對“績效”的評價(jià)是最重要的,其他兩種處于輔助地位。本文的主要研究內(nèi)容包括:
(1)構(gòu)建漢語口語測試評分員評價(jià)模式。闡述了建立漢語口語測試評分員評價(jià)體系的理論基礎(chǔ),包括建立評價(jià)體系的目的、作用、原則等。一個(gè)完整的漢語口語測試評分員評價(jià)體系包含三個(gè)部分:“素質(zhì)”評價(jià)體系、“績效”評價(jià)體系和“能力”評價(jià)體系。在這三個(gè)方面中,“素質(zhì)”和“能力”主要是用來衡量評分員的內(nèi)在價(jià)值,“績效”主要是衡量評分員的外在價(jià)值,也就是評分員創(chuàng)造的價(jià)值。內(nèi)在價(jià)值能夠轉(zhuǎn)化為外在價(jià)值,所以在三個(gè)一級指標(biāo)中,“績效”指標(biāo)是最直接和最主要的。我們認(rèn)為,這三個(gè)方面較全面地代表了評分員的日常工作表現(xiàn),是一個(gè)具有實(shí)際應(yīng)用價(jià)值的理論框架。
(2)構(gòu)建評分員“績效”評價(jià)模式。對評分員“績效”的評價(jià)主要反映在對評分員評分質(zhì)量的評價(jià)上。評分員的任務(wù)很多,特別是普通話水平測試(PSC)的評分員還有推廣普通話等其他任務(wù)。不同口語測試中,評分員承擔(dān)的任務(wù)不同,但其主要任務(wù)是為應(yīng)試人評分。評分質(zhì)量的高低關(guān)系著口語測試的信度和效度。本文為了量化評分員的評分質(zhì)量,構(gòu)建了以嚴(yán)厲度、一致性為指標(biāo)的“績效”評價(jià)體系。這個(gè)體系在理論上能夠反映評分員評分結(jié)果和應(yīng)試人能力的差別,可以用來評價(jià)評分員的評分質(zhì)量。
(3)應(yīng)用評分員“績效”評價(jià)模式進(jìn)行實(shí)證研究。本部分將使用現(xiàn)代測量理論嘗試量化評分員的評分質(zhì)量,為評價(jià)評分員提供測量學(xué)方面的理論支持。本部分的另一個(gè)貢獻(xiàn)是對量化結(jié)果進(jìn)行了有效性檢驗(yàn),檢驗(yàn)結(jié)果顯示嚴(yán)厲度和一致性作為評價(jià)指標(biāo)可以反映評分員的評分質(zhì)量。
1.2.2 研究方法
理論與實(shí)證研究相結(jié)合的研究方法是本文研究最基本的研究方法。具體來講,本文使用的主要研究方法有:
(1)文獻(xiàn)法。為完成本項(xiàng)研究,我們搜集了數(shù)百篇有關(guān)漢語口語測試、評價(jià)體系的學(xué)術(shù)論文,窮盡性地收集了關(guān)于普通話水平測試(PSC)和漢語水平考試(HSK)的學(xué)術(shù)論文,其中包括數(shù)十篇碩博士論文。除此之外,筆者還認(rèn)真研讀了語言測試方面的中外文專著。通過閱讀文獻(xiàn),掌握了進(jìn)行評分員評價(jià)的理論和方法,為完成論文打下了良好的基礎(chǔ)。
(2)分析法。在占有大量文獻(xiàn)資料的基礎(chǔ)上,“去粗取精、去偽存真、由此及彼、由表及里”,對文獻(xiàn)資料的內(nèi)部邏輯關(guān)系進(jìn)行深入分析。
A.對比總結(jié)。對比分析是本研究中使用的重要方法之一?谡Z測試的種類很多,我們選擇了幾種有代表性的測試,有的是外語口語測試,有的是漢語口語測試。在和其他口語測試對比的基礎(chǔ)上,我們得出了漢語口語測試的特點(diǎn),即對評分員的要求是全面的。在分析評分員的特點(diǎn)時(shí),我們也使用了這種方法。通過和科研人員、高校管理人員等的對比,發(fā)現(xiàn)了漢語口語測試評分員具有“雙重性”特點(diǎn)。
B.歸納演繹。歸納由個(gè)別走向一般,演繹由一般走向個(gè)別。本文運(yùn)用歸納與演繹相結(jié)合的方法,提出了漢語口語測試評分員評分質(zhì)量的指標(biāo),對漢語口語測試評分員評分質(zhì)量指標(biāo)的有效性進(jìn)行了檢驗(yàn)。
(3)問卷調(diào)查。本研究在研究口語測試中評分員內(nèi)化評分標(biāo)準(zhǔn)類型時(shí),使用了問卷調(diào)查的方式,共向90位評分員發(fā)放了調(diào)查問卷,回收82份。問卷調(diào)查是現(xiàn)代社會(huì)科學(xué)研究中最常用的資料收集方法,使用問卷可以了解人的態(tài)度。問卷調(diào)查結(jié)果為解釋評分員評分差異提供了寶貴信息。
(4)實(shí)驗(yàn)法。在當(dāng)今時(shí)代,實(shí)驗(yàn)方法已經(jīng)不再是自然科學(xué)的專屬方法了。對某種行為或現(xiàn)象進(jìn)行研究,對其做出解釋、預(yù)測和控制,只能通過實(shí)驗(yàn)。本研究中設(shè)計(jì)了評分員為共同應(yīng)試人評分的實(shí)驗(yàn),收集到了寶貴的一手?jǐn)?shù)據(jù),這些數(shù)據(jù)是完成此次研究的基礎(chǔ)保障。
(5)聚類分析等多元統(tǒng)計(jì)方法。本項(xiàng)研究對數(shù)據(jù)進(jìn)行分析時(shí),我們使用了聚類分析(cluster analysis)這種多元變量統(tǒng)計(jì)方法,對評分員的內(nèi)化評分標(biāo)準(zhǔn)進(jìn)行歸類研究。聚類分析實(shí)質(zhì)上是一種分類技術(shù),而分類是人類認(rèn)識事物的最基本方法之一。聚類分析和以往分類技術(shù)不同的是依靠科學(xué)的定量方法進(jìn)行分類,是一種精確可靠的方法。除此而外,本項(xiàng)研究還應(yīng)用了相關(guān)分析等其他統(tǒng)計(jì)方法。
(6)多面Rasch模型。多面Rasch模型是一個(gè)功能強(qiáng)大的項(xiàng)目反應(yīng)理論模型,它可以將觀測試中來自應(yīng)試人、評分員、口語測試任務(wù)等多個(gè)方面的變異分解,是目前主觀評分研究中使用最多的模型。本研究應(yīng)用此模型量化了評分員的嚴(yán)厲度和一致性,評價(jià)了應(yīng)試人的口語能力。這是本研究使用的最重要的研究方法之一。
你還可能感興趣
我要評論
|