Hallo,
ich hoffe das passt hier irgendwie ....
Ich habe einen String, der den Quelltext einer
HTML enthält und lasse eine Regular Expression darüber laufen, um mir alle Links herauszufiltern. Ich nutze folgende RegEx:
(?i)(?<=<a href=\")(?P<protokoll>(https?://|ftp://)?)(?<!javascript:;)(?P<adresse>.+?)(?=\")
Der erste Ausdruck in Klammern schaltet auf CASE-INSENSITIVE, so dass es egal ist, ob groß oder Kleinschreibung. Dann folgt eine LOOK BEHIND-Assertion, so dass nur Sachen gefunden werden, vor denen '<a href="' steht. Dann bastle ich eine Gruppe namens 'protokoll', die halt entweder 'http://' oder 'https://' oder '
ftp://' oder nichts enthält (bei relativen Pfaden, die ja kein Protokoll vorangestellt haben).
Das nun folgende Teil klappt nicht, so wie ich will:
(?<!javascript:;)
... das Ding soll '<a href="javascript
:;">...' Links rausfiltern. Ich dachte ich benutze diese NEGATIVE LOOK BEHIND-Assertion. Aber es funzt nicht! javascript wird trotzdem aufgenommen.
Der Teil danach ((?P<adresse>.+?)(?=\")) bastelt wieder eine Gruppe namens 'adresse' und füllt sie mit dem Teil nach 'http://' usw. usf.! Aber zur Zeit sind eben noch diese javascript-Blöcke enthalten.
Weiß jemand von euch, wie ich die javascript-Geschichten rausfiltern kann?