subs2vec

Python 3.7 resources to evaluate bigram and trigram frequencies in corpora.

Authors: Jeroen van Paridon, Bill Thompson
Updated: 2019-04-30
Source: https://github.com/jvparidon/subs2vec
Keywords: language, bigram, trigram, lexical norms, psycholinguistics, Afrikaans, Arabic, Bulgarian, Bengali, Breton, Bosnian, Catalan, Czech, Danish, German, Greek, English, Esperanto, Spanish, Estonian, Basque, Farsi, Finnish, French, Galician, Hebrew, Hindi, Croatian, Hungarian, Armenian, Indonesian, Icelandic, Italian, Georgian, Kazakh, Korean, Lithuanian, Latvian, Macedonian, Malayalam, Malay, Dutch, Norwegian, Polish, Portuguese, Romanian, Russian, Sinhala, Slovak, Slovenian, Albanian, Serbian, Swedish, Tamil, Telugu, Tagalog, Turkish, Ukranian, Urdu, Vietnamese

Speech and Language Resource Bank

Vox Populi

A corpus of European Parlimentary speech and tools for machine learning models.

subs2vec

Python 3.7 resources to evaluate bigram and trigram frequencies in corpora.