Полезные библиотеки: gensim - библиотека для моделирования над текстами

Gensim - библиотека Python для моделирования, тематическое моделирование документов и извлечения подобия с больших корпусов.

Целевая аудитория является обработка естественного языка (НЛП) и IR сообщество.

В Gensim реализованы популярные алгоритмы НЛП. Например, word2vec. Большинство реализаций алгоритмов умеет использовать несколько ядер.

https://github.com/piskvorky/gensim/

more ...