Delphi-PRAXiS - Delphi Wie am effektivsten aus diesen HTML Code Text parsen ?

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)

- Netzwerke (https://www.delphipraxis.net/14-netzwerke/)

- - Delphi Wie am effektivsten aus diesen HTML Code Text parsen ? (https://www.delphipraxis.net/150700-wie-am-effektivsten-aus-diesen-html-code-text-parsen.html)

Wie am effektivsten aus diesen HTML Code Text parsen ?

Ich möchte aus einer HTML-Code Tabelle (eine Topliste) die Daten extrahieren in ein Format das ich dann auch gut weiterverarbeiten kann.
Der HTML-Code sieht folgendermaßen aus:

Zitat:

1: <DIV class=topline onmouseover="this.style.backgroundColor='#084600'" onmouseout="this.style.backgroundColor='transparen t'">
2: <DIV class=c1>15</DIV>
3: <DIV class=c2>
4: <DIV class="c2 kp10"></DIV>
5: <DIV class=c2_2>

User</DIV>
</DIV>
6: <DIV class=c3>

Platzierung</DIV>
7: <DIV class=c4>2200</DIV>
8: <DIV class=c5>77000</DIV>
9: <DIV class=c6>

anzeigen</DIV>
</DIV>
10: <DIV class=topline onmouseover="this.style.backgroundColor='#084600'" onmouseout="this.style.backgroundColor='transparen t'">

<DIV class=topline onmouseover="this.style.backgroundColor='#084600'" onmouseout="this.style.backgroundColor='transparen t'">
<DIV class=c1>16</DIV>
<DIV class=c2>
<DIV class="c2 kp10"></DIV>
<DIV class=c2_2>

User</DIV>
</DIV>
<DIV class=c3>

Platzierung</DIV>
<DIV class=c4>2300</DIV>
<DIV class=c5>63000</DIV>
<DIV class=c6>

anzeigen</DIV>
</DIV>
<DIV class=topline onmouseover="this.style.backgroundColor='#084600'" onmouseout="this.style.backgroundColor='transparen t'">

...
..
.

In der originalen vollständigen Liste sind 20 Plätze... oben im code sind 2 Platzierungen als Beispiel.
Extrahiert werden sollen die werte in Zeile: 2,7,8 und in 9 die Zahl hinter javascript:get('

Die Befehle Pos, delete usw sind mir bekannt, aber ich frage mich ob es etwas effektiveres gibt als umständlich mit pos/delete zu arbeiten.
Das Ausgabeformat könnte ein komma getrennter String array werden, so das ich dann auf die einzelnen werte zugreifen kann. Oder hat jemand eine bessere idee?

Wäre nett wenn jemand helfen könnte. Danke.

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

Hi

Delete benötigst Du nicht, nur eine (schnelle) PosEx-Funktion. Die ist in aktuelleren Versionen vorhanden und erweitert die POS-Funktion um die Angabe des Startindexes, ab dem gesucht werden soll.
Prinzipiell gehst Du so vor:
1. Suche "<DIV class=c1>" ab Position P und extrahiere alles nach dem Suchstring bis zum ersten '<'. Setze P auf diese Position. Damit hast Du das erste Datum gefunden und extrahiert.
2. Suche "<DIV class=c4>" ab Position P und extrahiere alles nach dem Suchstring bis zum ersten '<'. Setze P auf diese Position. Damit hast Du das zweite Datum gefunden und extrahiert.
3....
4....
5. Gehe zu 1.

Das wiederholst du, bis die Suche erfolglos war. Fertig.

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

ok, danke. Also meine Routine um einen wert zu extrahieren sieht nun so aus:

Delphi-Quellcode:

			var

string1   : String;

pos1,pos2 : Integer;

Platz     : String;

begin

  memo10.lines.LoadFromFile('.\bearbeiten1.txt');

  string1 := lowercase(memo10.text);

  pos1    := posex('<div id=topcontainer>',string1,1);

  delete(string1,1,pos1);

  pos1    := posex('<div class=c1>',string1,1);

  pos2    := posex('</div>',string1,pos1);

  platz   := trim(copy(string1,pos1+14,(pos2-pos1)-14));

end;

Das memo geladen wird usw entfällt später natürlich ist nur zum offline testen.
Ich finde zuerst den begin der eigentlichen topliste und lösche alles davor damit nicht fundstellen vorher schon vorkommen.
Die nächsten 2 Zeilen müsste ich dann für jeden wert den ich extrahieren will wiederholen.

Ist doch dann so ok oder ?

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

Zitat:

1: <DIV class=topline onmouseover="this.style.backgroundColor='#084600'" onmouseout="this.style.backgroundColor='transparen t'">
...

Fast hätte ich einen XML Parser empfohlen (u.a. wegen Sonderzeichen, UTF-8 etc.) - es ist aber leider kein

"well formed" XML - schade, schade :)

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

Bin kein Profi, aber vielleicht geht es mittels Regex einfacher?

Delphi-Quellcode:

			with TPerlRegEx.Create(nil) do

try

  RegEx := '(?<=>)\d+(?=<)|(?<=javascript:get\('')\d+(?='')';

  Subject := {Source};

  if Match then

  repeat

    AStringList.Add(MatchedExpression);

  until not MatchAgain;

finally

  Free;

end;

Ergebnis für deinen Quote in #1:

Zitat:

15
2200
77000
476
16
2300
63000
476

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

Zum Parsen von HTML mit RegEx gibt es ziemlich negative Meinungen:

Parsing HTML the cthulhu way

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

Anhand des Titels würde ich Regex ausschließen. Denn effektiv hat bei mir etwas mit Geschwindigkeit zu tun und da ist die individuelle Lösung klar im Vorteil.

Re: Wie am effektivsten aus diesen HTML Code Text parsen ?

Zitat:

Zitat von SirThornberry

Denn effektiv hat bei mir etwas mit Geschwindigkeit zu tun...

Interessant - ich dachte immer, das wäre effizient ;)
(Also für mich ist effektiv = "wird die Aufgabe erledigt?" und effizient="wird sie erledigt, und wieviel kostet das?")
Aber du bist nicht allein:

Zitat:

Wie am effektivsten aus diesen HTML Code Text parsen ?

der Superlativ existiert nicht - entweder ist es effektiv oder nicht :mrgreen: