AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

Links verarbeiten

Ein Thema von mb1996 · begonnen am 29. Mai 2013 · letzter Beitrag vom 1. Jun 2013
Antwort Antwort
Seite 1 von 2  1 2      
mb1996

Registriert seit: 30. Dez 2009
243 Beiträge
 
Delphi 2009 Professional
 
#1

Links verarbeiten

  Alt 29. Mai 2013, 20:46
Hi Leute,

ich habe einen Downloader geschreiben, der Meta-Daten und Links aus einer HTMl zieht.
Nun habe ich ein paar Probleme mit meiner Link Verarbeitung. Diese erzeugt bei manchen Websites Fehler. Das Problem ist, dass ich auch die Links von dieser Website haben möchte. Das funktioniert eigentlich auch, nur es giebt spezielle Fälle.

Zum Beispiel:
<a href="http://www.test.de">Hier</a>
<a href="/index.html">Hier</a>
<a href="index.html">Hier</a>
<a href="mailto:bla@bla.bla">Hier</a>

Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?
  Mit Zitat antworten Zitat
WM_CLOSE

Registriert seit: 12. Mai 2010
Ort: königsbronn
398 Beiträge
 
RAD-Studio 2009 Pro
 
#2

AW: Links verarbeiten

  Alt 29. Mai 2013, 21:24
Mit einem Wort: Regex.
Es gibt auf einschlägigen Websites hunderte Expressions, die alle (vorhandenen) Infos aus Links extrahieren können.
Natürlich musst du die nicht vorhandenen Sachen, wie relative Pfade selbst auflösen. Ich glaube nicht, dass es da was fertiges gibt.
EDIT: Eventuell könntest du das Ergebnis ja für andere zur Verfügung stellen, wenn es fertig ist.
Delphi programming

Geändert von WM_CLOSE (29. Mai 2013 um 21:27 Uhr)
  Mit Zitat antworten Zitat
Benutzerbild von lbccaleb
lbccaleb

Registriert seit: 25. Mai 2006
Ort: Rostock / Bremen
2.037 Beiträge
 
Delphi 7 Enterprise
 
#3

AW: Links verarbeiten

  Alt 29. Mai 2013, 21:28
Schon mal ein wenig geluschert in fertigen Programmen?

http://4coder.org/delphi-source-code/924/
Martin
MFG Caleb
TheSmallOne (MediaPlayer)
Die Dinge werden berechenbar, wenn man die Natur einer Sache durchschaut hat (Blade)
  Mit Zitat antworten Zitat
Benutzerbild von jfheins
jfheins

Registriert seit: 10. Jun 2004
Ort: Garching (TUM)
4.579 Beiträge
 
#4

AW: Links verarbeiten

  Alt 29. Mai 2013, 21:57
Mit einem Wort: Regex.
Böse böse. http://www.codinghorror.com/blog/200...hulhu-way.html

HTML ist ausreichend komplex, dass es durch reguläre Ausdrücke nicht vollständig erfasst werden kann. Bei Delphi ist leider kein HTML-Parser dabei, aber es gibt sicher einige Klassen dafür.
  Mit Zitat antworten Zitat
WM_CLOSE

Registriert seit: 12. Mai 2010
Ort: königsbronn
398 Beiträge
 
RAD-Studio 2009 Pro
 
#5

AW: Links verarbeiten

  Alt 29. Mai 2013, 23:33
Gut zugegeben, ich bin davon ausgegangen, dass die a Tags schon mittels eines XML-Parsers (oder anderem) extrahiert wurden und es nur noch um die URLs geht.
Interressant wird es sowieso erst, wenn man auf fehlerhaften HTML-Code trifft.
Delphi programming
  Mit Zitat antworten Zitat
Benutzerbild von BUG
BUG

Registriert seit: 4. Dez 2003
Ort: Cottbus
2.094 Beiträge
 
#6

AW: Links verarbeiten

  Alt 30. Mai 2013, 00:18
Gut zugegeben, ich bin davon ausgegangen, dass [...] es nur noch um die URLs geht.
Würde ich auch fast vermuten.

Wenn man es richtig machen möchte, könnte man auch in die HTML5-Dokumentation gucken. Oder in das hier (was immer das auch ist)
Intellekt ist das Verstehen von Wissen. Verstehen ist der wahre Pfad zu Einsicht. Einsicht ist der Schlüssel zu allem.
  Mit Zitat antworten Zitat
Namenloser

Registriert seit: 7. Jun 2006
Ort: Karlsruhe
3.724 Beiträge
 
FreePascal / Lazarus
 
#7

AW: Links verarbeiten

  Alt 30. Mai 2013, 03:39
Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?
Such den ersten : in der URL, sofern vorhanden, und guck ob der Text davor was anderes als http ist. Wenn ja, abbrechen.
Wenn kein http:// vorkommt und die URL mit einem / beginnt: Setze "http://domainname" vor die URL.
Wenn kein http:// vorkommt und die URL nicht mit einem / beginnt: Setze "http://domainname/verzeichnis der quellseite" vor die URL.

Ja, das sollte es eigentlich soweit sein. Es gibt aber noch (selten) das <base>-Tag. Dann müsstest du im zweiten Fall stattdessen die URL aus dem Base-Tag nehmen und im ersten Fall die Domain von der URL des Base-Tags.
  Mit Zitat antworten Zitat
Benutzerbild von lbccaleb
lbccaleb

Registriert seit: 25. Mai 2006
Ort: Rostock / Bremen
2.037 Beiträge
 
Delphi 7 Enterprise
 
#8

AW: Links verarbeiten

  Alt 31. Mai 2013, 20:01
Hat jemand eine Idee oder eine Prozedur, die möglichst alle potenziellen Fehler ausschließen und die Links mit den ,,Basedomain" erweitern kann, sodass ich die Datei mit der idhttp-Komponenten downloaden kann?
Such den ersten : in der URL, sofern vorhanden, und guck ob der Text davor was anderes als http ist. Wenn ja, abbrechen.
Wenn kein http:// vorkommt und die URL mit einem / beginnt: Setze "http://domainname" vor die URL.
Wenn kein http:// vorkommt und die URL nicht mit einem / beginnt: Setze "http://domainname/verzeichnis der quellseite" vor die URL.

Ja, das sollte es eigentlich soweit sein. Es gibt aber noch (selten) das <base>-Tag. Dann müsstest du im zweiten Fall stattdessen die URL aus dem Base-Tag nehmen und im ersten Fall die Domain von der URL des Base-Tags.
Ist nicht so einfach, da es in HTML auch die möglichkeit gibt, in vorigen Ordnerstrukturen zu suchen, also sowas wie:

"../../../"...

Und das ist selten leicht im Code zu filtern
Martin
MFG Caleb
TheSmallOne (MediaPlayer)
Die Dinge werden berechenbar, wenn man die Natur einer Sache durchschaut hat (Blade)
  Mit Zitat antworten Zitat
Namenloser

Registriert seit: 7. Jun 2006
Ort: Karlsruhe
3.724 Beiträge
 
FreePascal / Lazarus
 
#9

AW: Links verarbeiten

  Alt 1. Jun 2013, 00:18
Ist nicht so einfach, da es in HTML auch die möglichkeit gibt, in vorigen Ordnerstrukturen zu suchen, also sowas wie:

"../../../"...

Und das ist selten leicht im Code zu filtern
Sollte eigentlich nichts machen:

http://www.delphipraxis.net/members/..

Wobei der Browser das anscheinend schon direkt auflöst...

Aber so einen Pfad clientseitig zu normalisieren ist auch nicht besonders schwierig. Hier mal auf die Schnelle gecodet:
Delphi-Quellcode:
function NormalizePath(Path: string): string;
const
  PATH_DELIMITER = '/';
  PARENT_REFERENCE = PATH_DELIMITER + '..';
var
  ReferencePos: integer;
  ParentDirPos: integer;
  function FindParentReference: Boolean;
  begin
    ReferencePos := Pos(PARENT_REFERENCE, Path);
    Result := ReferencePos > 0;
  end;
  procedure FindParentDirStart;
  begin
    ParentDirPos := ReferencePos - 1;
    while (ParentDirPos > 0) and (Path[ParentDirPos] <> PATH_DELIMITER) do
      dec(ParentDirPos);
  end;
begin
  while FindParentReference do
  begin
    FindParentDirStart;
    Delete(Path,
      ParentDirPos + length(PATH_DELIMITER),
      ReferencePos - ParentDirPos + length(PARENT_REFERENCE)
    );
  end;
  Result := Path;
end;
Delphi-Quellcode:
  writeln(NormalizePath('A/B/../C')); // -> A/C
  writeln(NormalizePath('A/../C')); // -> C
  writeln(NormalizePath('A/B/..')); // -> A/
  writeln(NormalizePath('A/B/../D/E/F/../../G')); // -> A/D/G
Was nicht behandelt wird, ist, wenn schon am Anfang des Pfads ".." steht bzw. auf eine höhere Ebene als die Wurzelebene verwiesen wird (z.B. "a/../.."), aber das sollte hier eigentlich eh nicht vorkommen, bzw. wenn dann ist es sowieso ein Fehler.
  Mit Zitat antworten Zitat
Benutzerbild von lbccaleb
lbccaleb

Registriert seit: 25. Mai 2006
Ort: Rostock / Bremen
2.037 Beiträge
 
Delphi 7 Enterprise
 
#10

AW: Links verarbeiten

  Alt 1. Jun 2013, 01:13
Wieso ein Fehler?
In HTML sind solche Pfad-Angaben "../../../irgendwas.png", Standard!
Martin
MFG Caleb
TheSmallOne (MediaPlayer)
Die Dinge werden berechenbar, wenn man die Natur einer Sache durchschaut hat (Blade)
  Mit Zitat antworten Zitat
Antwort Antwort
Seite 1 von 2  1 2      


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 20:38 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz