Bitte um Hilfe bei ( Regular Expression )

Andre-1979

Grünschnabel
Hallo zusammen mein Name ist Andre und ich stoße immer häufiger auf RegEx .
Da ich in diesem Thema sehr neu bin tu ich mir daran noch sehr schwer ,
kleinere Sachen bekomme ich hin aber bei den verschachtelten hört es auf .

Wenn ich wenigstens wüste wie ich vorgehen müsste um überhaupt so tief zu kommen !

ae387f-1458478268.png


Das ganze versuche ich in Python umzusetzen und währe echt dankbar wenn mir einer weiter
helfen könnte ( mir raucht schon seit 2 tagen deswegen die Rübe ) ! Bitte um Hilfe !

Wie gesagt ich komme gar nicht bis dort hin .... ))-;

L.G. Andre...
 
Hallo SpiceLab , mein Problem ist das ich nicht weis wie ich so weit runter komme
das ich überhaupt das ( <script></script> ) zu sehen bekomme .

Ich bräuchte das für mein Addon ((-;

Es wird beim normalen auslesen des Quelltextes nicht mit gelesen weil es zugeklappt ist .

Auslesen Kurzfassung zb :

oRequest = cRequestHandler(sUrl)
sHtmlContent = oRequest.request()

m = re.search('<script[\s\S]*?>[\s\S]*?<\/script>',sHtmlContent)


Der Quellcode ist zu lang - also URL:
http://hdfilme.tv/erinnerungen-an-marnie-2014-974-stream


Es ist in der Verschachtelung drin.
c4af66-1458481026.png
 
Hab alles fertig bis auf das letzte in <script></script> - streams - wo das json anfängt .

598a9e-1458481819.png


Wie hangelt man sich durch diese Verschachtelung ???
 
Zuletzt bearbeitet:
Das sind Dinger die kenne ich noch gar nicht , habe vorher 6 Jahre Vb und seit 4 monaten noch Python
und Websachen nur sehr begrenzt ((-;

EDIT:
Hab mir ma grad ( publicclassDomParserDemo ) angeschaut ist auch ein ganz schöner Brocken .
 
Auch wenns hart ist, aber dann wirds an der Zeit, damit anzufangen :)

Regex sind rein prinzipiell schon nicht in der Lage, allgemeines HTML zu verarbeiten.
(der verlinkte Stackoverflow-Beitrag ist sehr detailliert darüber, wie grauenhaft es ist, das überhaupt zu versuchen)
 
Ja werd das wohl jetz öfter brauchen , werd mich wohl damit auseinander setzen müssen
in zwischen brauch ich es schon so oft das ich mich jedes mal ärgere .
 
Ich komm hier nicht drüber , was ist das ist da ein weiteres Dokument eingebunden oder was ???
bekomme nichts dahinter ausgelesen .... ))-;

Oben Bild ( #dokument )
alles darüber ja , darunter nichts ! Warum nicht was heißt das ?
 
Das iframe ist sozusagen eine Webseite in einer Webseite drin. Das musst du als separates Dokument behandeln.
 
Zurück