CroLTeC

Glavni izbornik


Powered by <TEI:TOK>
Maarten Janssen, 2014-

Hrvatski učenički korpus (Croatian Learner Corpus - CroLTeC)

Autorica: Nives Mikelić Preradović

 

CroLTeC je učenički korpus hrvatskoga kao inoga jezika koji se razvija na Filozofskom fakultetu Sveučilišta u Zagrebu.

Korpus sadrži eseje 755 učenika s 36 različitih materinskih jezika, među kojima su najzastupljeniji španjolski, engleski, njemački, poljski, kineski, francuski i arapski. Sastoji se od 7213 skeniranih dokumenata (originalnih učeničkih eseja i istih eseja korigiranih od strane lektora), od čega je 1217 eseja u izvorno digitalnome obliku, a 3527 ih je skenirano, transkribirano i pretvoreno u XML format.

Korpus ima ukupno 1.073,512 pojavnica, a eseji su se prikupljali na svih šest razina Zajedničkoga europskoga referentnog okvira za jezike (eng. Common European Framework of Reference for Languages: Learning, Teaching, Assessment - CEFR) učenja hrvatskoga jezika u Croaticumu – Centru za hrvatski kao drugi i strani jezik na Filozofskome fakultetu u Zagrebu.

Prema Inicijativi za označavanje teksta (eng. Text Encoding Initiative - TEI) u TEITOK okruženju omogućeno je bogato označavanje korpusa. Svi eseji obogaćeni su metapodatcima o naslovu, broju i vrsti eseja te okolnostima pod kojima su nastali (domaća zadaća, dio ispita ili terenske nastave i sl.). Također, korpus je moguće pretraživati prema godini rođenja, spolu, razini učenja hrvatskoga jezika te prema materinskim jezicima polaznika. Sve promjene koje su napravili sami učenici (dodavanja, brisanja, transpozicije segmenata, itd.) su također označene u esejima.

Svi eseji su anonimizirani, tokenizirani, lematizirani i provedeno je morfosintaktičko označavanje riječi pomoću RELDI označivača (Ljubešić i Erjavec 2016: 1527-1531). Konačno, sve ove dodatne informacije su pohranjene zajedno s izvornim tekstovima u XML datotekama koje se mogu pretraživati regularnim jezikom za pretraživanje korpusa (eng. Corpus Query Processor - ​​CQP).

 

Referenca: Mikelić Preradović, N.; Berać, M.; Boras, D. 2015. Learner Corpus of Croatian as a Second and Foreign Language. Multidisciplinary Approaches to Multilingualism. Ur. Cergol Kovačević, Kristina i Udier, Sanda Lucija. Peter Lang. Frankfurt am Main, Njemačka. 107-126.