Пишем web-проекты: исправляем битый HTML с помощью Tidy

При парсинге возникают совсем странные ошибки - одна из них - не валидный HTML. Т.е. с ошибками. Верстальщик забыл закрыть таблицу или body. Еще бывает что вставляют HTML из Word, а там тааккккооооой код.

Чтобы очистить HTML от мусора можно применять инструмент Tidy.

Данный инструмент позволяет исправить неверный HTML (добавит закрывающие теги, добавит недостающие теги), почистить форматирование (отступы, например).

Скачать этот ...

more ...

Извлечение информации: lxml - парсим XML и HTML

lxml это быстрая и гибкая библиотека для обработки разметки XML и HTML на Python. Она снабжена поддержкой языка запросов XML (XPath) и языка преобразования XML-документов (XSLT) и предоставляет API ElementTree.

Много где можно найти что ее называют "быстрой". Для обоснования этого прилагательного прошу ознакомиться со страницей - http://lxml.de/performance.html

Пример использования:

xml = '''<?xml version="1.0" encoding="UTF-8 ...
more ...

Полезные библиотеки: генерация html с помощью Yattag

В PyPi репозитории не один шаблонизатор HTML. Но далеко не всегда хочется тащить его за собой. В этом случае нам поможет модуль Yattag - это библиотека (DSL по сути), которая позволяет в Python-way формате писать HTML/XML файлы

Ознакомьтесь с туториалом: http://www.yattag.org/#tutorial

more ...