Přeskočit na obsah

Repozitář publikační činnosti

    • čeština
    • English
  • čeština 
    • čeština
    • English
  • Přihlásit se
Zobrazit záznam 
  •   Repozitář publikační činnosti UK
  • Fakulty
  • Filozofická fakulta
  • Zobrazit záznam
  • Repozitář publikační činnosti UK
  • Fakulty
  • Filozofická fakulta
  • Zobrazit záznam
JavaScript is disabled for your browser. Some features of this site may not work without it.

The Structuralist Tradition Meets Empirical Data: Corpus Data Enhancing the Czech Internet Language Reference Book

původní článek
Creative Commons License IconCreative Commons BY Icon
vydavatelská verze
  • žádná další verze
Thumbnail
File can be accessed.Získat publikaci
Autor
Kováříková, DominikaORCiD Profile - 0000-0002-4419-6901
Beneš, Martin
Smejkalová, Kamila
Kovářík, Oleg

Zobrazit další autory

Datum vydání
2023
Publikováno v
Word Structure
Ročník / Číslo vydání
16 (2-3)
ISBN / ISSN
ISSN: 1750-1245
ISBN / ISSN
eISSN: 1755-2036
Metadata
Zobrazit celý záznam
Kolekce
  • Filozofická fakulta

Tato publikace má vydavatelskou verzi s DOI 10.3366/word.2023.0230

Abstrakt
This paper demonstrates how the corpus grammar tool GramatiKat can be used to improve and refine morphological information in the Internet Language Reference Book (ILRB), which presents complete declension paradigms for 45,632 standard Czech nouns. The paradigm tables are based mainly on morphological types, following structuralist conceptions of language as a fully articulated system. The paper discusses how to update the ILRB and provide users with empirically based grammatical information for individual word forms in each cell of the paradigm. All noun lemmas have been investigated using the GramatiKat tool for research into grammatical categories in Czech. The tool observes the distribution of word forms of a particular lexeme in comparison with the standard distribution across the whole word class. It is capable of identifying nouns that have an unusually high occurrence of a certain word form, as well as nouns with unattested word forms. GramatiKat is based on the data from two corpora of Czech written texts, SYN2015 and SYN2020 (200 million word tokens). The paper investigates the relationship between defectiveness and overabundance on one side and language variability and potentiality on the other. Based on the unique combination of data from the ILRB and GramatiKat, the paper suggests how information about unusually frequent or overabundant word forms as well as unattested ones should be pointed out, so that ILRB provides the user with accurate, empirically based data.
Klíčová slova
Czech, codification, corpora, declension paradigm, defectiveness, GramatiKat, Internet Language Reference Book, overabundance, usage, word form variants
Trvalý odkaz
https://hdl.handle.net/20.500.14178/2878
Zobraz publikaci v dalších systémech
WOS:001099547400005
SCOPUS:2-s2.0-85179302875
Licence

Licence pro užití plného textu výsledku: Creative Commons Uveďte původ 4.0 International

Zobrazit podmínky licence

xmlui.dri2xhtml.METS-1.0.item-publication-version-

DSpace software copyright © 2002-2016  DuraSpace
Kontaktujte nás | Vyjádření názoru
Theme by 
Atmire NV
 

 

O repozitáři

O tomto repozitářiAkceptované druhy výsledkůPovinné popisné údajePoučeníCC licence

Procházet

Vše v DSpaceKomunity a kolekcePracovištěDle data publikováníAutořiNázvyKlíčová slovaTato kolekcePracovištěDle data publikováníAutořiNázvyKlíčová slova

DSpace software copyright © 2002-2016  DuraSpace
Kontaktujte nás | Vyjádření názoru
Theme by 
Atmire NV