AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Programmierung allgemein Algorithmen, Datenstrukturen und Klassendesign Delphi Suche Container-Klasse zur ERstellung eines Index
Thema durchsuchen
Ansicht
Themen-Optionen

Suche Container-Klasse zur ERstellung eines Index

Ein Thema von 0KommaNix · begonnen am 6. Dez 2023 · letzter Beitrag vom 6. Dez 2023
Antwort Antwort
0KommaNix

Registriert seit: 20. Jul 2006
Ort: Halle/Saale
23 Beiträge
 
Delphi 11 Alexandria
 
#1

Suche Container-Klasse zur ERstellung eines Index

  Alt 6. Dez 2023, 15:08
Hallo,
meine Frage in Kurzform:
Kann mir jemand eine Container-Klasse empfehlen, die gut als Nachschlage-Index geeignet ist?
Sie sollte dazu auf folgende Beschreibung passen:
1. Die Einträge sind sortiert nach Key: TDateTime. Value ist int64.
2. Schnelle Suche nicht nach dem Key: TDateTime, sondern nach Item[i].Time <= Key < Item[i+1].Time.
Gesucht wird also nicht nur der Eintrag mit dem exakten Schlüsselwert, sondern der Vorgänger- und Nachfolger-Eintrag.
Leider kenne ich keine Container-Klasse die das von sich aus unterstützt.
3. Schnelles Laden und Schreiben aus/von einer Datei.
4. Gut wäre die Verwendung von "Memory-Mapped Files", weil dann das Laden und Speichern praktisch entfällt.
Im Gegenzug wäre das Sortieren, bzw. Einfügen, dann aber sicher sehr schwierig. Deshalb dies nur optional, als alternative Variante.

Die lange Fassung meiner Frage, damit der Verwendungszweck gut beschrieben wird:
Der Zugriff auf eine binären Daten-Datei soll beschleunigt werden, in dem ein Index (bzw. eine Index-Datei) aufgebaut wird.
Die Daten-Datei enthält Zeitreihen Daten, die durch folgenden Code-Schnipsel beschrieben wird:

Delphi-Quellcode:
const
  REC_PER_TILE = 4096;
type
  TDataRecord = packed record
    Time: TDateTime;
    Value: double;
  end;
  TDataRecordArray = array[0..REC_PER_TILE-1] of TDataRecord; // Eine Kachel
  PDataRecordArray = PDataRecordArray; // Zeiger auf Kachel
  TIndexRecord = packed record
    Time: TDateTime; // Der Schlüssel im Index-Container
    RecNr: int64; // Der Verweis in die Daten-Datei
  end;
Die Datei kann beliebig groß werden (typisch sind 10.000.000 TDataRecord Einträge). Bei einer fehlerfrei geschriebenen Daten-Datei sind die Einträge nach Time aufsteigend sortiert (recs[i].Time<=recs[i+1].Time).

Der Lesezugriff erfolgt Kachelweise über ein "Memory-Mapped File". Hier der Pseudocode ohne Index:
Delphi-Quellcode:
function ReadSeek(ATime: TDataTime; out RecNr: int64): boolean;
var
  Left, Right,dcnt: int64;
  MinTime, MaxTime, dt: TDateTime;
  TileNr: int64;
  recs: PDataRecordArray;
  cnt: integer;
begin
  // 1. Suche initialisieren und auf gültigen Bereich beschränken
  Left := 0;
  Right:= RecordCount-1;
  MinTime:= StartTime;
  MaxTime:= EndTime;
  if (ATime ... ) then
    ...
  // binäre Suche bis gefunden
  found := False;
  repeat
    // 2. Schätze die Position in der Datei:
    dcnt:= (Right-Left);
    found := dcnt<=0;
    if found then
      break;
    dt := (MaxTime-MinTime)/ dcnt;
    RecNr := Left+(ATime-MinTime) / dt;
    // 3. zugehörige Kachel einlesen:
    TileNr := RecNr div REC_PER_TILE;
    Read(TileNr, recs, cnt);
    // 4. Im gelesenen Buffer recs den Vorgänger zu ATime suchen. Es gibt 3 mögliche Fälle:
      // 4.1 ATime gefunden. Sonderfall, dass i+1 in der nächsten Kachel liegt, hier nicht berücksichtigt
      found := (recs[i].Time<=ATime) and (recs[i+1].Time>=ATime);
    ...
      // 4.2 recs[0].Time>ATime
      Right := TileNr * REC_PER_TILE;
      MaxTime := recs[0].Time;
    ...
      // 4.3 recs[cnt-1].Time<ATime
      Left := (TileNr+1) * REC_PER_TILE;
      MinTime := recs[cnt-1].Time;
    ...
  until(found);
end;
Mit Index würde ich unter 1. zuerst Prüfen, ob der Suchbereich sich durch einen Vorgänger und/oder Nachfolger einschränken lässt.
Unter 3. könnte man dann, nach jedem Read Aufruf, recs[0] in den Container eintragen. So könnte man den Index nebenbei, bei der
Benutzung, weiter aufbauen.

Ich überlege, ob man sich das Laden und Speichern sogar sparen könnte, wenn man nach den Öffnen der Daten-Datei jede n-te Kachel liest und deren recs[0] in den Index einträgt.
Bei kleinen Dateien ist n=1, also jede Kachel. Bei größeren Dateien wird solange n erhöht, bis die Anzahl der Lesevorgänge einen Grenzwert unterschreitet.

Über Ideen und Anregungen würde ich mich freuen.
Bernd
  Mit Zitat antworten Zitat
Benutzerbild von Uwe Raabe
Uwe Raabe

Registriert seit: 20. Jan 2006
Ort: Lübbecke
11.442 Beiträge
 
Delphi 12 Athens
 
#2

AW: Suche Container-Klasse zur ERstellung eines Index

  Alt 6. Dez 2023, 15:33
So wie du es beschreibst ist der Index-Record genauso groß wie der Daten-Record. Wenn du den Index komplett im Speicher halten kannst, dann kannst du auch direkt die Daten in den Speicher laden und sortieren.

TDataRecord enthält faktisch zwei Double (8 Byte) (was das packed schon mal überflüssig macht). Somit hat ein TDataRecord eine Größe von 16 Byte, was bei 10.000.000 Datensätzen weniger als 160 MB ergibt - sollte also problemlos alles in den Speicher passen.

Speichert man die TDataRecords in einem TArray<TDataRecord> und baut sich einen IComparer<TDataRecord>, der auf den Time-Anteil prüft, kann man die TArray-Methoden Sort und BinarySearch verwenden um den exakten bzw. nächst-höheren Time-Eintrag zu finden.

Ach ja, da das Array einen zusammenhängenden Speicherbereich verwendet, kann es auch relativ schnell aus einer Datei gelesen und in eine geschrieben werden.
Uwe Raabe
Certified Delphi Master Developer
Embarcadero MVP
Blog: The Art of Delphi Programming

Geändert von Uwe Raabe ( 6. Dez 2023 um 15:36 Uhr)
  Mit Zitat antworten Zitat
0KommaNix

Registriert seit: 20. Jul 2006
Ort: Halle/Saale
23 Beiträge
 
Delphi 11 Alexandria
 
#3

AW: Suche Container-Klasse zur ERstellung eines Index

  Alt 6. Dez 2023, 16:41
Hallo Uwe,
So wie du es beschreibst ist der Index-Record genauso groß wie der Daten-Record. Wenn du den Index komplett im Speicher halten kannst, dann kannst du auch direkt die Daten in den Speicher laden und sortieren.
Zwar haben die beiden Records die selbe Größe von 16Bit, aber im Index soll pro Kachel nur ein Record gespeichert werden. In meinen Beispiel ergibt sich also ein Größenverhältnis von 1 zu 4096.

TDataRecord enthält faktisch zwei Double (8 Byte) (was das packed schon mal überflüssig macht).
Ja, ich weiss . Ich verwende packed für alles, was das Programm verlässt. Kostet nichts und soll darauf hinweisen, dass es Systemübergreifend kompatible sein soll.
Somit hat ein TDataRecord eine Größe von 16 Byte, was bei 10.000.000 Datensätzen weniger als 160 MB ergibt - sollte also problemlos alles in den Speicher passen.
Da hast du recht. Ich überschätze bestimmt den Zeitbedarf. Allerdings ist der Dateigröße nach oben hin keine Grenze gesetzt.
Speichert man die TDataRecords in einem TArray<TDataRecord> und baut sich einen IComparer<TDataRecord>, der auf den Time-Anteil prüft, kann man die TArray-Methoden Sort und BinarySearch verwenden um den exakten bzw. nächst-höheren Time-Eintrag zu finden.
Das will ich probieren! Leider kenne ich mich mit Generics nicht so gut aus. Kannst du mir bitte die Deklaration einer Implementationsklasse für IComparer<TDataRecord> zeigen?
Bernd
  Mit Zitat antworten Zitat
0KommaNix

Registriert seit: 20. Jul 2006
Ort: Halle/Saale
23 Beiträge
 
Delphi 11 Alexandria
 
#4

AW: Suche Container-Klasse zur ERstellung eines Index

  Alt 6. Dez 2023, 17:22
Leider kenne ich mich mit Generics nicht so gut aus. Kannst du mir bitte die Deklaration einer Implementationsklasse für IComparer<TDataRecord> zeigen?
Ok, beim ersten Schreck vor Generics, hab ich Angst bekommen. War dann doch leichter als gedacht. Schreibe nun ein Test für TArray<TDataRecord>.
Danke Uwe!
Bernd
  Mit Zitat antworten Zitat
Benutzerbild von Uwe Raabe
Uwe Raabe

Registriert seit: 20. Jan 2006
Ort: Lübbecke
11.442 Beiträge
 
Delphi 12 Athens
 
#5

AW: Suche Container-Klasse zur ERstellung eines Index

  Alt 6. Dez 2023, 17:40
Ich weiß zwar noch nicht wie der Index dann aufgebaut werden soll, aber hier mal ein paar Ansätze:
Delphi-Quellcode:
type
  TTimeRecord<T> = record
    Time: TDateTime;
    Value: T;
  end;

type
  TDataRecord = TTimeRecord<Double>;
  TDataArray = TArray<TDataRecord>;

  TIndexRecord = TTimeRecord<Int64>;
  TIndexArray = TArray<TIndexRecord>;

function MakeIndexRecordComparer: IComparer<TIndexRecord>;
begin
  Result := TComparer<TIndexRecord>.Construct(
    function(const Left, Right: TIndexRecord): Integer
    begin
      Result := CompareDateTime(Left.Time, Right.Time);
    end
    );
end;

var
  FIndex: TIndexArray;

procedure SortIndex;
begin
  TArray.Sort<TIndexRecord>(FIndexArray, MakeIndexRecordComparer);
end;

function FindIndexValue(const ATime: TDateTime; out AIndex: Int64): Boolean;
var
  foundIndex: NativeInt;
begin
  var item: TIndexRecord;
  item.Time := ATime;
  Result := TArray.BinarySearch<TIndexRecord>(FIndexArray, item, foundIndex, MakeIndexRecordComparer);
  { falls bei nicht gefunden der kleinere Record verwendet werden soll }
// if not Result then
// Dec(foundIndex);
  if not Result and (foundIndex < 0) then begin
    AIndex := -1;
    Exit;
  end;
  AIndex := FIndexArray[foundIndex].Value;
end;
Uwe Raabe
Certified Delphi Master Developer
Embarcadero MVP
Blog: The Art of Delphi Programming
  Mit Zitat antworten Zitat
0KommaNix

Registriert seit: 20. Jul 2006
Ort: Halle/Saale
23 Beiträge
 
Delphi 11 Alexandria
 
#6

AW: Suche Container-Klasse zur ERstellung eines Index

  Alt 6. Dez 2023, 18:54
Uwe, ich kann meine Begeisterung kaum Ausdruck verleihen - Ich freue mich wie Rumpelstilzchen!
SortIndex werde ich nicht brauchen, weil es ein Fehler wäre, wenn es einen Rücksprung bei der Aufnahmezeit gibt. Dann wäre eine Reparatur der Daten nötig. Das muss ich nur erkennen und den Anwender entscheiden lassen.

Zwischenzeitlich hatte ich einen einfachen Testfall geschrieben, bei dem ich für 1024*1024*1024 Daten-Records jede 4096 Records große Kachel einlese und in den Index stecke. Das ist zwar noch zu langsam, aber nach deiner Vorlage ist es sehr einfach einen kleineren Index aufzubauen und zwischen den Stützstellen einfach linear zu interpolieren, so wie oben angedacht. Das wird so schnell, dass ich mir ein Speichern und Laden sparen kann.

Vielen, vielen Dank!
Bernd
  Mit Zitat antworten Zitat
Antwort Antwort

 

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 05:57 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz