The Gigaword Corpus

Authors: Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Jörgen Pind, Starkaður Barkarson, Tomaž Erjavec, Maciej Ogrodniczuk, Petya Osenova, Nikola Ljubešić, Kiril Simov, Andrej Pančur, Michał Rudolf, Matyáš Kopp, Steinþór Steingrímsson, Çağrı Çöltekin, Jesse de Does, Katrien Depuydt, Tommaso Agnoloni, Giulia Venturi, María Calzada Pérez, Luciana D. de Macedo, Costanza Navarretta, Giancarlo Luxardo, Matthew Coole, Paul Rayson, Vaidas Morkevičius, Tomas Krilavičius, Roberts Darǵis, Orsolya Ring, Ruben van Heusden, Maarten Marx, Darja Fišer
Updated: 2022-04-30
Source: https://malheildir.arnastofnun.is/?mode=rmh2022#?stats_reduce=word&isCaseInsensitive&searchBy=word&cqp=%5B%5D&lang=en&display=about
Keywords: Icelandic, Corpus, Monolingual

subs2vec

Python 3.7 resources to evaluate bigram and trigram frequencies in corpora.

Authors: Jeroen van Paridon, Bill Thompson
Updated: 2019-04-30
Source: https://github.com/jvparidon/subs2vec
Keywords: language, bigram, trigram, lexical norms, psycholinguistics, Afrikaans, Arabic, Bulgarian, Bengali, Breton, Bosnian, Catalan, Czech, Danish, German, Greek, English, Esperanto, Spanish, Estonian, Basque, Farsi, Finnish, French, Galician, Hebrew, Hindi, Croatian, Hungarian, Armenian, Indonesian, Icelandic, Italian, Georgian, Kazakh, Korean, Lithuanian, Latvian, Macedonian, Malayalam, Malay, Dutch, Norwegian, Polish, Portuguese, Romanian, Russian, Sinhala, Slovak, Slovenian, Albanian, Serbian, Swedish, Tamil, Telugu, Tagalog, Turkish, Ukranian, Urdu, Vietnamese

SLABank

SLABank is a component of TalkBank dedicated to providing corpora for the study of second language acquisition.

Authors: Brian MacWhinney
Updated: 2018-05-04
Source: https://slabank.talkbank.org/
Keywords: language-acquisition, second-language, Czech, English, French, German, Hungarian, Icelandic, Italian, Mandarin, Spanish