AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

HTML auslesen

Ein Thema von greenmile · begonnen am 6. Mär 2013 · letzter Beitrag vom 6. Mär 2013
Antwort Antwort
greenmile

Registriert seit: 17. Apr 2003
1.107 Beiträge
 
Delphi 10.3 Rio
 
#1

HTML auslesen

  Alt 6. Mär 2013, 17:00
Hallo,

ich lese automatisiert einige HTML Seiten aus und stolpere immer wieder über ein Umlaut Problem, z.B. ist im Text "\uuc3\u0192\u00c2\u00b6" für ö enthalten. Weiß jemand auf die Schnelle, um was für eine Notation es sich handelt und wie ich einen normalen Delphi String draus mache? Beispiel :https://groups.google.com/forum/?fro...pi/OAl8A6hup80

Geändert von greenmile ( 6. Mär 2013 um 17:09 Uhr)
  Mit Zitat antworten Zitat
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#2

AW: HTML auslesen

  Alt 6. Mär 2013, 17:28
Hallo,

ich lese automatisiert einige HTML Seiten aus und stolpere immer wieder über ein Umlaut Problem, z.B. ist im Text "\uuc3\u0192\u00c2\u00b6" für ö enthalten. Weiß jemand auf die Schnelle, um was für eine Notation es sich handelt und wie ich einen normalen Delphi String draus mache? Beispiel :https://groups.google.com/forum/?fro...pi/OAl8A6hup80
In der angegebenen Seite geht es um JSON, daher nehme ich an, dass es sich um die JSON UTF-8 Notation handlet.

Das hat aber mit HTML nichts zu tun, die HTML Seite enthält einfach JSON Beispielcode.
Michael Justin
  Mit Zitat antworten Zitat
greenmile

Registriert seit: 17. Apr 2003
1.107 Beiträge
 
Delphi 10.3 Rio
 
#3

AW: HTML auslesen

  Alt 6. Mär 2013, 17:43
Die Seite war ein Beispiel ...
  Mit Zitat antworten Zitat
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#4

AW: HTML auslesen

  Alt 6. Mär 2013, 17:55
Die Seite war ein Beispiel ...
Es ist kein gültiges HTML Encoding, HTML 4.0 und neuer kennt als Notation nur &#[x][Nummer];, oder named entities. Wenn \\u00c3\\u00b3\\u00c3\\u00b0 in einer HTML Seite steht, dann muss das nicht dekodiert werden - es ist schon der darzustellende Text.
Michael Justin
  Mit Zitat antworten Zitat
greenmile

Registriert seit: 17. Apr 2003
1.107 Beiträge
 
Delphi 10.3 Rio
 
#5

AW: HTML auslesen

  Alt 6. Mär 2013, 18:00
Doch es muss decodiert werden (sonst würde ich hier ja nicht posten), weil sich darin dann Umlaute wie ö, ä usw. befinden, im IE werden die auch normal dargestellt. Folgender Source funktioniert leider nicht:

Uses ... DBXJSON;

Function CorrectName(Source: String): String;
var LJSONValue: TJSONValue;
begin
Result := Source;
LJSONValue := TJSONObject.ParseJSONValue(TEncoding.UTF8.GetBytes (Source),0);
If Assigned(LJSONValue) then Result := LJSONValue.ToString;
end;

LJSONValue ist immer Nil.
  Mit Zitat antworten Zitat
mjustin

Registriert seit: 14. Apr 2008
3.006 Beiträge
 
Delphi 2009 Professional
 
#6

AW: HTML auslesen

  Alt 6. Mär 2013, 18:14
LJSONValue ist immer Nil.
Welcher Eingabewert ist es denn, der bei Aufruf mit der Funktion nil ergibt?
Michael Justin
  Mit Zitat antworten Zitat
Antwort Antwort


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:02 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz