HTML parsen mit MSXML

N

netdau

Hallo...

ich habe mich ein bisschen mit MSXML beschäftigt, um HTML-Daten via Script einzulesen und anschließend weiterzuverarbeiten.

Mit normalen XML-Daten klappt das auch ganz gut, nur wenn es sich bei der Quelle um eine HTML-Datei handelt, kann offenbar kein Objekt-Baum (DOM) generiert werden. :confused:

Da ich zu diesem Thema nicht viel Informationen im Netz gefunden habe, könnte es natürlich sein, dass das so auch gar nicht geht. Bevor ich nun einen anderen Weg beschreite, wollte ich noch mal nachfragen, ob es nicht doch mit MSXML funktioniert.

Falls nicht, gibt es Alternativen (Welche?)?

Vielen Dank! :)

Karsten
 
Hallo Karsten,

HTML ist kein gültiger XML-Dialekt. Deswegen wird früher oder später jeder XML-Parser aussteigen, da HTML zu viele Freiheitsgrade bietet (Tags weglassen usw.) und viele HTML-Seiten aus XML-Sicht ungültig sind. Unter anderem aus diesem Grund wurde XHTML/XHTML2 erfunden. Dieses lässt sich mit einem XML-Parser dann auch sauber parsen.

Siehe:
http://www.w3.org/MarkUp/

Markus
 

Neue Beiträge

Zurück