AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

Der schnellste weg Dateien zu parsen?

Offene Frage von "Relicted"
Ein Thema von Relicted · begonnen am 15. Sep 2006 · letzter Beitrag vom 21. Sep 2006
Antwort Antwort
Seite 2 von 3     12 3      
Relicted

Registriert seit: 24. Jan 2006
Ort: Iserlohn
646 Beiträge
 
Delphi 10.4 Sydney
 
#11

Re: Der schnellste weg Dateien zu parsen?

  Alt 15. Sep 2006, 15:13
sourcen kann ich leider nicht veröffentlichen sonst gibts probleme mit meiner arbeitsstelle )
ich werds mal versuchen anzuwenden und dann mal ne kurze rückmeldungen geben.

Gruß
reli
  Mit Zitat antworten Zitat
Christian Seehase
(Co-Admin)

Registriert seit: 29. Mai 2002
Ort: Hamburg
11.117 Beiträge
 
Delphi 11 Alexandria
 
#12

Re: Der schnellste weg Dateien zu parsen?

  Alt 15. Sep 2006, 20:09
Moin Reli,

wie schnell wird denn so eine Datei durchgegangen?
Tschüss Chris
Die drei Feinde des Programmierers: Sonne, Frischluft und dieses unerträgliche Gebrüll der Vögel.
Der Klügere gibt solange nach bis er der Dumme ist
  Mit Zitat antworten Zitat
alzaimar
(Moderator)

Registriert seit: 6. Mai 2005
Ort: Berlin
4.956 Beiträge
 
Delphi 2007 Enterprise
 
#13

Re: Der schnellste weg Dateien zu parsen?

  Alt 15. Sep 2006, 21:30
Laut SQL-Server Interna (und die sollten es ja wissen), ist ReadFileScatter (Win32-API) das schnellste Verfahren, um Daten zu lesen. Die Buffergröße ist nicht 'ungefähr' 8kb, sondern genau die System-Page-Größe. Alles Weitere in der Hilfe zu o.g. API-Call.

Eigentlich übernimmt die Win-API das Buffern, sodaß ein zweiter Puffer nicht notwendigerweise zu einer Performancesteigerung führt, jedenfalls nicht, soweit ich mich erinnere.

Hier ein Link http://support.microsoft.com/kb/160606/
"Wenn ist das Nunstruck git und Slotermeyer? Ja! Beiherhund das Oder die Flipperwaldt gersput!"
(Monty Python "Joke Warefare")
  Mit Zitat antworten Zitat
Benutzerbild von negaH
negaH

Registriert seit: 25. Jun 2003
Ort: Thüringen
2.950 Beiträge
 
#14

Re: Der schnellste weg Dateien zu parsen?

  Alt 16. Sep 2006, 02:12
Danke für diese Info, kannte diese Funktion noch garnicht. Hast du evtl. en Beispiel der Nutzung ?

Gruß Hagen
  Mit Zitat antworten Zitat
Benutzerbild von Luckie
Luckie

Registriert seit: 29. Mai 2002
37.621 Beiträge
 
Delphi 2006 Professional
 
#15

Re: Der schnellste weg Dateien zu parsen?

  Alt 16. Sep 2006, 02:44
Im DF hab eich zwei Beiträge gefunden: [df]ReadFileScatter[/df]. Aber mich würde es für meinen FileSplitter auch interessieren, wie man das implementiert. Ich könnte mir vorstellen, dass das das Splitten beschleunigt, denn da lese ich ja auch die Datei und schreiben sie wieder auf die Festplatte.
Michael
Ein Teil meines Codes würde euch verunsichern.
  Mit Zitat antworten Zitat
Relicted

Registriert seit: 24. Jan 2006
Ort: Iserlohn
646 Beiträge
 
Delphi 10.4 Sydney
 
#16

Re: Der schnellste weg Dateien zu parsen?

  Alt 16. Sep 2006, 12:42
Zitat von Christian Seehase:
Moin Reli,

wie schnell wird denn so eine Datei durchgegangen?
ich denke du meinst die gesammte parse zeit ja?

um eine kleine vorstellung davon zu haben was ich parse ( ich denke nicht vielen wird das dateiformat a2l etwas sagen ) würde ich die
datei mit html quelltext vergleichen. nur etwas umfangreicher und etwas andere syntax


getestet: 9mb datei auf 3000+ Athlon it 1gig ram und ide standard fetplatte in rund 34sekunden


Zitat von alzaimar:
Laut SQL-Server Interna (und die sollten es ja wissen), ist ReadFileScatter (Win32-API) das schnellste Verfahren, um Daten zu lesen. Die Buffergröße ist nicht 'ungefähr' 8kb, sondern genau die System-Page-Größe. Alles Weitere in der Hilfe zu o.g. API-Call.

Eigentlich übernimmt die Win-API das Buffern, sodaß ein zweiter Puffer nicht notwendigerweise zu einer Performancesteigerung führt, jedenfalls nicht, soweit ich mich erinnere.

Hier ein Link http://support.microsoft.com/kb/160606/

ich werde mich ab montag damit mal beschäftigen. wenn ich damit erfolg habe werde ich euch natürlich einen auszug des quelltextes zur verfügung stellen.
  Mit Zitat antworten Zitat
alzaimar
(Moderator)

Registriert seit: 6. Mai 2005
Ort: Berlin
4.956 Beiträge
 
Delphi 2007 Enterprise
 
#17

Re: Der schnellste weg Dateien zu parsen?

  Alt 21. Sep 2006, 09:23
Unabhängig davon, wie man die Daten denn in den RAM schaufelt, würde ich als optimal schnellen Parser einen DEA implementieren. Aus regulären Ausdrücken kann man so einen DEA (Deterministischen Endlichen Automaten) autmatisch erstellen. Theoretisch würde sich jede Regular-Expressions-Klasse eignen, aber viele der Implementierungen sind im Hauruck-Verfahren erstellt und alles andere als performant.

Ich würde mich vielleicht direkt mit LEX / YACC beschäftigen, die erzeugen die DEA nach dem klassischen Verfahren. Meine Compilerbau-Zeit liegt schon einige Jahre zurück, aber ich würde mal annehmen, das einem DEA performancemäßig kein anderer Algo das Wasser reichen kann.

Über deine Resultate würden sich hier bestimmt Viele freuen!
"Wenn ist das Nunstruck git und Slotermeyer? Ja! Beiherhund das Oder die Flipperwaldt gersput!"
(Monty Python "Joke Warefare")
  Mit Zitat antworten Zitat
Relicted

Registriert seit: 24. Jan 2006
Ort: Iserlohn
646 Beiträge
 
Delphi 10.4 Sydney
 
#18

Re: Der schnellste weg Dateien zu parsen?

  Alt 21. Sep 2006, 10:28
hört sich interessant an aber da bin ich ganz ehrlich: never heard about this )

also ich habe jetzt mal nen ca 8kbyte großen buffer eingebaut und die Size, Position mehtoden überschrieben um nicht dauernd nen springenden dateicursor zu haben. durch das verfahren bin ich von
34 auf 7sekunden runter gekommen.

zum thema readfilescatter bin ich leider noch ned zu gekommen da dran rumzutüfteln.. hab leider noch nebenher einige andere aufgaben. aber sobald ich da was habe gibts was zu lesen )


gruß
reli
  Mit Zitat antworten Zitat
alzaimar
(Moderator)

Registriert seit: 6. Mai 2005
Ort: Berlin
4.956 Beiträge
 
Delphi 2007 Enterprise
 
#19

Re: Der schnellste weg Dateien zu parsen?

  Alt 21. Sep 2006, 10:42
LEX ist ein Programm, das einen Scanner / Tokenizer erzeugt. Du definierst, was die Sprachelemente sind, also Schlüsselwörter, Identifier, Zahlen, terminale Symbole (alle Zeichen, die NICHT Bestandteil eines Wortes sind) usw. Und LEX erzeugt eine Delphi-Unit, das einen Input-Stream in die einzelnen Wörter der Sprache aufteilt und hintereinander die Wörter liefert.

Das dient dann als Input für einen Parser. Der Tokenizer würde z.B. 'begin foobar; end.' in folgende Sequenz übersetzen (1 2 3 4 5). Vorher hast Du ihm gesagt, das das reservierte Schlüsselwort 'begin' den Wert '1' bekommt, ein Identifier den Wert '2', ein Semikolon den Wert '3', das Wort 'end' den Wert '4' und der Punkt den Wert '5'.

Der Input 'begin foobar; blafasel; Begin end; End.' wäre dann '1 2 3 2 3 1 4 3 4 5'.

Anmerkung: LEX erzeugt ursprünglich natürlich C-Code, weil es für UNIX geschrieben wurde. Aber mittlerweile gibt es auch eine gute Implementierung für Delphi. Such mal danach.

Alternativ kannst Du natürlich auch einen 'Frickelparser' basteln, der eventuell doch schneller als ein DEA ist (wenn die Sprache nur wenig reservierte Schlüsselwärter besitzt).
"Wenn ist das Nunstruck git und Slotermeyer? Ja! Beiherhund das Oder die Flipperwaldt gersput!"
(Monty Python "Joke Warefare")
  Mit Zitat antworten Zitat
Relicted

Registriert seit: 24. Jan 2006
Ort: Iserlohn
646 Beiträge
 
Delphi 10.4 Sydney
 
#20

Re: Der schnellste weg Dateien zu parsen?

  Alt 21. Sep 2006, 10:47
mein cheffe hat einen parser gebaut. der mann hat ansich auch ahnung von dem was er tut ( so nen dr. titel kommt auch ned von irgendwo )

der parser läuft sehr oop gestützt ab - generell hat jedes token ne eigene klasse die dann wieder wort für wort weiterparsed und dann ggf wieder ne neue klasse created..

die a2l definition hat glaub ich rund 900 seiten

also das ist schon was recht großes ^^
  Mit Zitat antworten Zitat
Antwort Antwort
Seite 2 von 3     12 3      


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 04:42 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz