Bibliographic Metadata

Title
Issues in developing a tertiary-level English reading comprehension test / Helen Heaney
AuthorHeaney, Helen
CensorSigott, Günther ; Havranek, Gertraud
Published2011
DescriptionX, 222, LXIV Bl. : graph. Darst.
Institutional NoteKlagenfurt, Alpen-Adria-Univ., Diss., 2011
LanguageEnglish
Bibl. ReferenceOeBB
Document typeDissertation (PhD)
Keywords (DE)Lesekompetenz / Testkonstruktion / Konstruktdefinition / sorgfältiges Lesen / überfliegendes Lesen / Aufgabenstellung / computerunterstützt
Keywords (EN)reading comprehension / test / construct definition / careful reading / expeditious reading / test method / items / reliability / item difficulty / computer-based testing
Keywords (GND)Englisch / Leseverstehen / Hochschulabschlussprüfung / Testkonstruktion / Anglistikstudium / Lesen
URNurn:nbn:at:at-ubk:1-10393 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
Issues in developing a tertiary-level English reading comprehension test [24.55 mb]
Links
Reference
Classification
Abstract (German)

Seit Oktober 2005 bietet die Alpen-Adria Universität Klagenfurt ein Bachelorstudium in Anglistik und Amerikanistik an, das eine größere Sprachkomponente als das alte Magisterstudium aufweist. Als Abschluss müssen Studierende eine Fachprüfung in den vier Fertigkeiten (Lesen, Hören, Schreiben, Sprechen) absolvieren. Das Ziel meiner Dissertation war die Entwicklung und Validierung eines Tests zur Überprüfung der Lesekompetenz auf dem Niveau C1/C2 im Gemeinsamen Europäischen Referenzrahmen für Sprachen (GERS). Das erste Kapitel ist der Konstruktdefinition gewidmet. Ausgangspunkt ist eine Diskussion verschiedener Theorien zum sorgfältigen Leseprozess von interaktiven zu komponentiellen Ansätzen. Strategien wie "skimming" und "scanning" (überfliegendes Lesen) stellen Leseprozesse dar, die in der heutigen, mit Informationen überfluteten (Arbeits-)Welt große Bedeutung erlangt haben, in international approbierten Sprachbeherrschungstests jedoch kaum vertreten sind. Anhand der Literaturübersicht und einer Bedarfsanalyse, sowie Beschreibungen der Lesefertigkeit im GERS und in einer kommerziellen Sprachtests auf ähnlichem Niveau wird im Konstrukt festgelegt, dass Studierende in der Lage sein sollen, den Text als Ganzes und im Detail zu verstehen, sowie einem Text explizite und implizite Informationen zu entnehmen, ersteres sowohl beim sorgfältigen als auch beim überfliegenden Lesen, das traditionell auf Papier bzw. computerunterstützt erfolgt. Im zweiten Kapitel werden die Möglichkeiten der praktischen Umsetzung des Konstrukts diskutiert. Dabei geht es um die Auswahl der Texte und Aufgabenstellungen, um ein Maximum an Authentizität in der Prüfungssituation zu erlangen. Die Vor- und Nachteile der verschiedenen Aufgabentypen (lange Antworten, kurze Antworten, Auswahlaufgaben) werden in Bezug auf den Entwicklungs-, Beantwortungs- und Beurteilungsprozess analysiert.

Das dritte Kapitel beschreibt die Pilotphase. Der Test wird zuerst einer Expertengruppe und nach kleinen Veränderungen und dem Ausscheiden einiger Items auch Studierenden in Klagenfurt vorgelegt. Eine adäquate Reliabilität (Cronbachs Alpha von .762 für 19 Studierende in der Zielgruppe, d.h. kurz vor dem Abschluss des BA-Studiums) und eine starke, signifikante Korrelation (rs=.881) mit dem Dialang Reading Test für eine kleinere Gruppe (N=11) ergeben den Eindruck, dass der Test praktisch unverändert für den Haupttest belassen werden könnte.

Die Durchführung des Haupttests wird im vierten Kapitel beschrieben.

Studierende aus Graz, Salzburg und Wien kommen zur Gruppe aus Klagenfurt dazu (N=111). Es stellt sich aber durch die mangelnde Reliabilität (.617) heraus, dass die Gesamtgruppe wahrscheinlich nicht repräsentativ genug ist: ihre Englischkenntnisse konnten nicht unabhängig vom Lesetest erfasst werden und korrelieren sicher nicht mit der Studiendauer. Bei denjenigen, die gefühlsmäßig nicht genug Zeit hatten oder zugaben relativ unmotiviert daran teilgenommen zu haben, sind die Resultate noch weniger konsistent. Aber sogar die Zielgruppe (N=57) zeigt keine ausreichende interne Konsistenz (.671). Eine offene Frage ist weiters die Auswirkung mangelnder Übereinstimmung der Expertengruppe bei manchen Items.

Daraufhin wendet sich die Autorin von einem Validierungsprozess ab und untersucht stattdessen die "guten" und die "schlechten" Items genauer.

Im fünften Kapitel werden 50 "ideale" Testpersonen und 20 Items identifiziert, die ausreichend konsistent sind (.757), um eine Konstruktvalidation zu unternehmen. An Hand verschiedener linguistischer Variablen wie Textlänge, Wortschatz, Grammatik und anderer Aspekte der Text- und Itemstruktur wird versucht, die Schwierigkeit der Items für die Testgruppe zu bestimmen, um dadurch "implicational scales" für die Entwicklung der Lesekompetenz vorsichtig identifizieren zu können.

Kapitel 6 bezieht sich wiederum auf den Prozess der Itementwicklung durch die Autorin und die Moderation der Items durch die Expertengruppe.

Weder Empfehlungen aus der Literatur für das Schreiben von Testitems noch die Wiederholung des Tests durch einen Teil der Expertengruppe und deren Rückmeldungen dazu lassen eine eindeutige Identifizierung der Ursachen für gute und schlechte Items erkennen.

Im letzten Kapitel wird die Problematik des "native speakers" als Auskunftsperson bei der Moderation von Auswahlaufgaben bei Lesetests auf hohem Niveau erläutert. Darüberhinaus werden weitere technische Entwicklungen in der innovativen Art des Testens der Kompetenz beim schnellen Lesen aufgegriffen.

Abstract (English)

Since October 2005, the Alpen-Adria Universität Klagenfurt, Austria, has offered a BA in English which has a larger language component than the former 5-year Magister programme. At the end of their studies, students have to pass a major examination covering reading, listening, writing and speaking, and the aim of my doctoral thesis was to develop and validate a test of 2nd language reading ability at C1/C2 level in the Common European Framework of Reference (CEFR) which could be used in the final modular examination.

The first stage in developing any test of language ability involves defining its underlying constructs (Chapter 1). Much theoretical work describes careful global reading skills, nowadays seen as an interactive process, rather than purely bottom-up (text-driven) or top-down (reader-driven) or one which is divisible into several components, such as language, comprehension and background knowledge. Reading strategies like skimming and scanning, on the other hand, represent different processing skills. However, neither of them has generated much research so far and, despite their increasing relevance in modern society, expeditious reading strategies are rarely tested in major examination suites. Based on the literature reviewed, a needs analysis, and expectations generated by the CEFR and a professionally produced exam at C2 level, my reading test construct covers divisions between explicitly and implicitly stated information, comprehension of text at global and local levels, and sentence-level/text-level processing in conjunction with careful and expeditious reading strategies. These are operationalized in a paper-based and computer-based test respectively, the latter including strict time management to encourage the use of expeditious strategies.

Chapter 2 explores issues which should be taken into account when choosing texts and tasks and how the two interact to determine test difficulty, whereby the interaction between tasks and test takers should be as authentic as possible within the constraints of the testing situation. The advantages and disadvantages of extended production, limited production and selected responses are elucidated in connection with compiling, taking and marking the test.

Items were then developed and subjected to moderation by a group of expert readers (Chapter 3). Cronbach's Alpha coefficient was reasonable for the Pilot Test Target Group in Klagenfurt (.762 for N=19 in their 6th semester and above) and there was a significant and strong correlation (rs=.881) with the Dialang Reading Test for a smaller sub-group (N=11).

In the Main Trial, test and bio data were collected from 111 students at four Austrian universities (Chapter 4). For a test to be potentially successful, the sample should be as representative as possible of the population, test takers should have ample time to complete it and should be motivated enough to take it seriously. In fact, reliability was mediocre for all students (.617) and only marginally better for the Main Trial Target Group (.671 for N=57 in their 7th semester and above). One major unknown variable was certainly the level of the students' English as it is unlikely to correlate strongly with the length of time spent studying. Moreover, sub-groups of students who felt rushed or unmotivated had less reliable results and there were weak yet significant correlations between feeling rushed or unmotivated and having a low score. Finally, all of this was compounded by a lack of agreement among the expert readers on the correct answer for some items, raising the issue of inter-rater reliability.

These findings brought about a change of focus. In Chapter 5, fifty students and a smaller set of items (n=20) were identified across which a more acceptable reliability coefficient was obtained (.757), forming the basis for a tentative study of construct validation. Lexical, grammatical, structural and content-based characteristics of the texts and/or tasks were investigated in terms of their relationship to item facility. A number of features were significantly related to item difficulty, providing some evidence of implicational scales in the development of reading skills and suggesting that the text variables were more important than the item variables, as a second facet of construct validity. Chapter 6 returned to the process of item writing and moderation, pinpointing minor design faults in the item stems or distractors which could have given misleading or useful cues to test takers. Retrospective verbal reports performed by seven expert readers also revealed interesting insights into how they had interpreted items. Finally, the conclusion takes a closer look at the issue of expert reader performance when moderating selected-response reading items and explores possible areas for further research in association with the operationalization of expeditious reading strategies.

Stats
The PDF-Document has been downloaded 18 times.