Vox Populi

A corpus of European Parlimentary speech and tools for machine learning models.

Authors: Chanhan Wang, Morgane Riviere, Ann Lee, Anne Wu, Chaitanya Talnikar, Daniel Haziza, Mary WIlliamson, Juan Pino, Emmanuel Dupoux
Updated: 2021-04-30
Source: https://aclanthology.org/2021.acl-long.80/
Keywords: English, German, French, Spanish, Polish, Italian, Romanian, Hungarian, Czech, Dutch, Finnish, Slovak, Slovenian, Estonian, Lithuanian, Portuguese, Bulgarian, Greek, Latvian, Maltese, Swedish, Danish, speech synthesis, machine learning, Accented Speech

subs2vec

Python 3.7 resources to evaluate bigram and trigram frequencies in corpora.

Authors: Jeroen van Paridon, Bill Thompson
Updated: 2019-04-30
Source: https://github.com/jvparidon/subs2vec
Keywords: language, bigram, trigram, lexical norms, psycholinguistics, Afrikaans, Arabic, Bulgarian, Bengali, Breton, Bosnian, Catalan, Czech, Danish, German, Greek, English, Esperanto, Spanish, Estonian, Basque, Farsi, Finnish, French, Galician, Hebrew, Hindi, Croatian, Hungarian, Armenian, Indonesian, Icelandic, Italian, Georgian, Kazakh, Korean, Lithuanian, Latvian, Macedonian, Malayalam, Malay, Dutch, Norwegian, Polish, Portuguese, Romanian, Russian, Sinhala, Slovak, Slovenian, Albanian, Serbian, Swedish, Tamil, Telugu, Tagalog, Turkish, Ukranian, Urdu, Vietnamese

SLABank

SLABank is a component of TalkBank dedicated to providing corpora for the study of second language acquisition.

Authors: Brian MacWhinney
Updated: 2018-05-04
Source: https://slabank.talkbank.org/
Keywords: language-acquisition, second-language, Czech, English, French, German, Hungarian, Icelandic, Italian, Mandarin, Spanish

Nijmegen Corpus of Casual Czech

The Nijmegen Corpus of Casual Czech contains 30 hours of high-quality recordings featuring 60 Czech speakers conversing among friends.

Authors: Mirjam Ernestus, Lucie Kočková-Amortová, Petr Pollak
Updated: 2014-05-30
Source: https://mirjamernestus.nl/Ernestus/NCCCz/index.php
Keywords: language, communication, phonetics, Czech