Представим ситуацию: есть блог, в котором публикуются посты на двух языках (а может и на 10). Необходимо рассортировать посты по языкам в разные RSS. (постов очень много, пускай 1000)

Вопрос к аудитории - как вы решили бы такую задачу?

Чтобы решить подобную задачу можно воспользоваться библиотекой langid.py. Это небольшой инструмент, который без доступа в Интернет(!!!) может определить язык текста (и слова).

Инструмент работает и из консоли, и как web сервис, а также как обычный Python-модуль:

>>> import langid
>>> langid.classify("This is a test")
('en', 0.99999999099035441)

Ссылка на божественный инструмент:



Комментарии