Полезные библиотеки: gensim - библиотека для моделирования над текстами

Gensim - библиотека Python для моделирования, тематическое моделирование документов и извлечения подобия с больших корпусов.

Целевая аудитория является обработка естественного языка (НЛП) и IR сообщество.

В Gensim реализованы популярные алгоритмы НЛП. Например, word2vec. Большинство реализаций алгоритмов умеет использовать несколько ядер.

https://github.com/piskvorky/gensim/

more ...

Таинство стандартной библиотеки: textwrap для сокращения текста

Таинство стандартной библиотеки: textwrap для укорочения текстов

При работе над Python Дайджестом - http://pythondigest.ru/ а именно при работе над "Колонкой автора" возникла такая задачка - уменьшить длину описания. Описание ссылок берется из RSS этой группы и оно иногда длинное.

Как же наиболее просто решить эту задачу? Самое простое - взять строку описания и взять, скажем первые 300 символов. Просто? Только вот ...

more ...