1. bookVolume 72 (2021): Issue 2 (December 2021)
    NLP, Corpus Linguistics and Interdisciplinarity
Journal Details
License
Format
Journal
eISSN
1338-4287
First Published
05 Mar 2010
Publication timeframe
2 times per year
Languages
English
access type Open Access

Building Czech Textbook Corpora (UcebKo) for Word-Formation Research of Czech as a Second Language

Published Online: 30 Dec 2021
Page range: 631 - 640
Journal Details
License
Format
Journal
eISSN
1338-4287
First Published
05 Mar 2010
Publication timeframe
2 times per year
Languages
English
Abstract

This work-in-progress paper presents a specialized language corpus UcebKo built from textbooks of Czech for foreigners. The corpus integrates three subcorpora (UcebKo-A2, UcebKo-B1, and UcebKo-B2) which allow research of Czech as a second/foreign language at chosen language levels (A2, B1, and B2). In this case, the research is focused on word-formation, where the first results, i.e., mapping of derived words denoting persons, illustrate the approach and methodology used.

Keywords

[1] Oliva, K., and Doležalová, D. (2004). O korpusu jako o zdroji jazykových dat. In Korpus jako zdroj dat o češtině. Brno, Masarykova univerzita, pages 7–10. Search in Google Scholar

[2] Cvrček, V. (2021). Struktura Českého národního korpusu. In Wiki Český národní korpus. Accessible at: https://wiki.korpus.cz/doku.php/cnk:struktura. Search in Google Scholar

[3] Vališová, P. (2013). Učebnicový korpus a jeho využití pro výuku češtiny jako cizího jazyka. In J. Klímová, Gramatika a korpus 2012: 4. mezinárodní konference. Hradec Králové. Accessible at: http://utkl.ff.cuni.cz/~rosen/public/GC2012/Konferencni_prispevky/ValisovaPavlina.pdf. Search in Google Scholar

[4] Meunier, F., and Gouverneur, C. (2009). New types of corpora for new educational challenges: collecting, annotating and exploiting a corpus of textbook material.10.1075/scl.33.16meu Search in Google Scholar

[5] Dokulil, M. (1962). Tvoření slov v češtině. 1, Teorie odvozování slov. Praha, Nakladatelství Československé akademie věd. Search in Google Scholar

[6] Ševčíková, M. (2018). Modelling Morphographemic Alternations in Derivation of Czech. The Prague Bulletin of Mathematical Linguistics, 110, pages 7–42. Accessible at: https://ufal.mff.cuni.cz/pbml/110/art-sevcikova.pdf. Search in Google Scholar

[7] Ivanová, J. (2002). Společný evropský referenční rámec pro jazyky: jak se učíme jazykům, jak je vyučujeme a jak v jazycích hodnotíme. Olomouc, Univerzita Palackého v Olomouci. Search in Google Scholar

[8] Kilgarriff, A., Rychlý, P., Jakubíček, M., Rundell, M. et al.: Sketch Engine [Computer Software and Informatiom Resource]. Accessible at: http://www.sketchengine.co.uk. Search in Google Scholar

[9] Jakubíček, M., Kovář V., and Šmerk, P. (2011): Czech Morphological Tagset Revisited. In A. Horák, P. Rychlý (eds.), Proceedings of Recent Advances in Slavonic Natural Languages Processing. Brno: Tribun EU, 2011, pages 29–42, 14 p. ISBN 978-80-263-0077-9. Search in Google Scholar

[10] Šmerk, P. (2008): K morfologické desambiguaci češtiny. Accessible at: https://is.muni.cz/auth/th/wteg5/teze.pdf. Advanced Master’s thesis. Masaryk University, Faculty of Informatics. Search in Google Scholar

[11] Štícha, F. et al. (2013). Velká akademická gramatika spisovné češtiny. Praha, Academia. Search in Google Scholar

[12] Karlík, P., Nekula, M., and Pleskalová, J. (2016). Nový encyklopedický slovník češtiny. Praha, Nakladatelství Lidové noviny. Accessible at: https://www.czechency.org/slovnik/. Search in Google Scholar

[13] Osolsobě, K. (1996). Algoritmický popis české morfologie a strojový slovník češtiny. Brno, Masarykova univerzita. Disertační práce. Search in Google Scholar

[14] Brno Morphological Analyzer Ajka. Accessible at: https://nlp.fi.muni.cz/projekty/wwwajka/. Search in Google Scholar

[15] Šimandl, J. (2016). Slovník sufixů užívaných v češtině. Praha, Univerzita Karlova, Karolinum. Accessible at: http://www.slovnikafixu.cz. Search in Google Scholar

[16] Kováříková, D. (2021). Frekvence. In Wiki Český národní korpus. Accessible at: https://wiki.korpus.cz/doku.php/pojmy:frekvence. Search in Google Scholar

Recommended articles from Trend MD

Plan your remote conference with Sciendo