![]() |
Datenbank: MariaDB • Version: 10.? • Zugriff über: JDBC
Index geschickt setzen für Tabellenvergleich
Hallo,
ich soll für eine unveränderbare Fremdsoftware, die an dieser Stelle keine Protokolierung hat, Verändeungsdaten liefern, wobei Veränderungen auch 2 Jahre Rückwirkend noch passieren können. Mein Plan: "Heute" eine Kopie der betreffenden Daten speichern und diese mit der Kopie der Daten von "Gestern" vergleichen, ob sich bei einem Datensatz etwas geändert hat. Das erstellen der Kopien läuft ca. 5 Minuten, womit ich leben kann, aber mein Vergleich läuft super lange, bei ca. 300 Tsd. Datensätzen. Aufbau der "Kopie"-Tabellen: FirmenNummer Abteilungsnummer PersonenNummer Kennzeichen (varchar) Tag (datum) Dauer (integer) Das SQL-Statement für den Vergleich:
SQL-Code:
Fragen nun:
Select
Heute.FirmenNummer, Heute.Abteilungsnummer, Heute.PersonenNummer, Heute.Kennzeichen, Heute.Tag, Heute.Dauer From Heute Left Join Gestern On Heute.FirmenNummer=Gestern.FirmenNummer And Heute.Abteilungsnummer=Gestern.Abteilungsnummer And Heute.PersonenNummer=Gestern.PersonenNummer And Heute.Kennzeichen=Gestern.Kennzeichen And Heute.Tag=Gestern.Tag And Heute.Dauer=Gestern.Dauer Where Gestern.FirmenNummer is NULL Kann man das Beschleunigen durch Indizies? Wie? Worauf? Oder stellt man die Abfrage anderweitig um, damit Sie schneller wird? Vielleicht irgendwas mit Exists? |
AW: Index geschickt setzen für Tabellenvergleich
Wenn die Heute-Tabelle eine eindeutige ID (AUTO INCREMENT) hat, wäre es vermutlich besser, den JOIN auf diese zu legen und in der WHERE Klausel auf Veränderungen der Felder zu prüfen. In der Gestern-Tabelle wäre die ID dann halt ein normales Feld, auf dem dann der Index liegt.
|
AW: Index geschickt setzen für Tabellenvergleich
Zitat:
|
AW: Index geschickt setzen für Tabellenvergleich
Für den reinen Vergleich, ob sich etwas geändert hat, würde ich die Daten eines Objekts komplett in Text überführen.
Das könnte z.B. JSON- oder XML-Format sein, Notfalls geht auch CSV. Damit speichert man einmal bei der Neuanlage diesen Text. Wenn eine Änderung auftritt, erneut Speichern mit Datum und Revisionsnummer.
Code:
Was wenn man bei späteren Auswertungen nach spezifischen Unterkriterien einschränken muss?
Tabelle Protokoll (ID Primärschlüssel, * natürlicher Schlüssel = eindeutiger Index)
(PK) ID * Schlüssel für das Objekt (z.B. Externe ID, Vorgangsnummer oder Personalnummer) * RevisionNr * Datum Text
Code:
Es bietet es sich an, schon beim Speichern der Revision die geänderten Kriterien in einer zusätzlichen Tabelle abzulegen.
Tabelle Kriterien (ID Primärschlüssel, * natürlicher Schlüssel = eindeutiger Index)
(PK) ID * Name Hier wird nur die Ämderung an sich benötigt. Alternativ kann man aber auch den neuen Wert zB. als Text ablegen. Für die erste Revisison eines Objektes würde man alle Kriterien mit Werten ablegen.
Code:
Welchen Objekten wurde seit 2020 das Kennzeichen Kz565 zugeordnet?
Tabelle ProtokollKriterien (Primärschlüssel über * natürlichen Schlüssel)
(FK) * ID_Protokoll (FK) * ID_Kriterium Text (optional)
Code:
Mit C.Text and A.Text kann man den alten und neuen Zustand des Objekts einfach gegenüberstellen.
select a.*, c.Text Old_Text, c.Datum Old_Datum
from Protokoll a left join ProtokollKriterien b on (b.id_protokoll = a.id) and (b.id_kriterium = (select id from Kriterium where name = 'Kennzeichen')) left join Protokoll c on (c.Schlüssel = a.Schlüssel) and (c.Revision = a.Revision - 1) where (a.datum >= '01.01.2020') and (b.Text = 'Kz565') |
AW: Index geschickt setzen für Tabellenvergleich
Unter FireBird bringt sowas sehr viel:
SQL-Code:
Wobei:
create index ix_gestern on Gestern (FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer);
create index ix_heute on Heute (FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer);
SQL-Code:
finde ich befremdlich. Null ist jetzt nicht zwingend ein Wert, dessen Abfrage man über 'nen Index besonders gut beschleunigen kann.
Left Join Gestern
On Heute.FirmenNummer = Gestern.FirmenNummer ... Where Gestern.FirmenNummer is NULL Was genau hast Du vor? Left Join liefert ja alles von heute, auch wenn es das nicht konkret so gestern gab. Bei denen ist die FirmenNummer dann Null. Vermute mal, dass Du genau diese "Dinger" haben willst. Würde das eher auf zwei Schritte aufteilen:
SQL-Code:
Meine (zugegeben etwas flache) Indexregel ist: Alles was im Where steht, kommt in den Index.
Select
FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer, FirmenNummer_2 from ( Select Heute.FirmenNummer, Heute.Abteilungsnummer, Heute.PersonenNummer, Heute.Kennzeichen, Heute.Tag, Heute.Dauer, Gestern.FirmenNummer as FirmenNummer_2 From Heute Left Join Gestern On Heute.FirmenNummer = Gestern.FirmenNummer And Heute.Abteilungsnummer = Gestern.Abteilungsnummer And Heute.PersonenNummer = Gestern.PersonenNummer And Heute.Kennzeichen = Gestern.Kennzeichen And Heute.Tag = Gestern.Tag And Heute.Dauer = Gestern.Dauer ) Where FirmenNummer_2 is NULL Hilft meist, aber nicht immer und es kommt ggfls. auf die Datenbank an. Was immer hilft: Ausführungsplan anschauen. Steht da was von Fulltablescan, ist's eher übel. Je mehr aus der Where-Bedingung dort aufgeführt wird, um so größer ist die Wahrscheinlichkeit, dass 'ne Abfrage schnell wird. Natürlich kann man jetzt in 'ner Datenbank nicht grundsätzlich für jede potentiell mögliche Wherebedingung nach dieser Regel 'nen Index erstellen. Wenn Du für den Vergleich aber eine eigenen Datenbank zu Verfügung hast, so spricht nix dagegen, es mit 'nem Index nach dieser Regel zu versuchen. Aber: Je komplexer ein Index, um so langsamer wird das Befüllen, da der Index dabei ja mit aufgebaut werden muss. Es könnte sich von daher als sinnvoll erweisen, zuerst den Index zu löschen, dann (wenn erforderlich) die Tabelle leeren, dann die Tabelle neu befüllen, dann den Index neu erstellen. Kommt auf die Datenmenge, die Datenbank, die darunterliegende Hardware an. Manchmal hilft da eher "Probieren geht über Studieren" als sinnvolles, lehrbuchmäßiges Vorgehen ;-) |
AW: Index geschickt setzen für Tabellenvergleich
Zitat:
Ich hab schon überlegt ob ich alle Spalten in einer zusammenführe via Concat und da dann einen Index auf die Spalte lege. Das Erzeugen dieser Tabellenkopie würde dann zwar länger dauern, aber vielleicht wäre der Join aber dann schneller. Muss das morgen mal probieren. Dann geht vielleicht auch:
SQL-Code:
Select Heute.SpalteMitAllemDrin
From Heute Where Not Exists (Select * From Gestern Where Heute.SpalteMitAllemDrin=SpalteMitAllemDrin) |
AW: Index geschickt setzen für Tabellenvergleich
Da sollte aber ein OUTER JOIN eigentlich schneller sein:
Code:
Select h.*
From Heute h LEFT OUTER JOIN Gestern g on h.SpalteMitAllemDrin=g.SpalteMitAllemDrin WHERE g.spalte1 IS NULL |
AW: Index geschickt setzen für Tabellenvergleich
Vor 'nem Concat über alle Spalten würd' ich zuerst mal 'nen Index über alle Spalten versuchen.
Not Exists ist ohne einen passenden Index vermutlich auch nicht gerade schnell. Was noch gehen könnte, weiß aber nicht ob MariaDB sowas unterstütz, unter Oracle müsste es in etwa so aussehen:
SQL-Code:
Laut dieser Seite
select FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer from Heute
minus select FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer from Gestern ![]() Das Not Exists würd' ich etwas abändern:
SQL-Code:
Aber: Das könnte eventuell auch anstelle des Joins machbar sein, in etwa sowas:
Select Heute.*
From Heute Where Not Exists (Select 1 From Gestern Where Heute.SpalteMitAllemDrin = Gestern.SpalteMitAllemDrin)
SQL-Code:
Aber ohne Index in der Art
Select
Heute.FirmenNummer, Heute.Abteilungsnummer, Heute.PersonenNummer, Heute.Kennzeichen, Heute.Tag, Heute.Dauer From Heute Where Not Exists (Select 1 From Gestern Where Heute.FirmenNummer = Gestern.FirmenNummer And Heute.Abteilungsnummer = Gestern.Abteilungsnummer And Heute.PersonenNummer = Gestern.PersonenNummer And Heute.Kennzeichen = Gestern.Kennzeichen And Heute.Tag = Gestern.Tag And Heute.Dauer = Gestern.Dauer )
SQL-Code:
, wird das vermutlich nicht schnell werden.
create index ix_gestern on Gestern (FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer);
create index ix_heute on Heute (FirmenNummer, Abteilungsnummer, PersonenNummer, Kennzeichen, Tag, Dauer); |
AW: Index geschickt setzen für Tabellenvergleich
So ich hab es mit der ConcatSpalte versucht. Das erzeugen / kopieren der Tabellen in der anderen Datenbank dauert damin ca. 15 Sek. länger, was bei Gesamtdauer von ca. 7 minuten nicht weiter aiffällt. Mit der langen dauer dafür muss ich leider erst mal Leben. Hier muss ich später mal schauen, ob ich das mit einem Bulk-Insert nicht beschleunigen kann.
Die sinngemäße Abfrage
SQL-Code:
dauert damit ca. 13 Sekunden, statt der über 2 Stunden mit dem Join. Es macht aber keinen unterschied ob 1 oder *, weil Mysql da eh keine Ergebnismenge zusammenbaut, es wird (so hab ich es verstanden) sofort abgebrochen, wenn ein Match gefunden ist.
Select Heute.*
From Heute Where Not Exists (Select 1 From Gestern Where Heute.SpalteMitAllemDrin = Gestern.SpalteMitAllemDrin) Abschließend hab ich auf die ConcatSpalte in beiden Tabellen noch einen Index gesetzt und bin bei 1.4 Sekunden, womit ich schon mehr als zufrieden bin. |
Alle Zeitangaben in WEZ +1. Es ist jetzt 22:30 Uhr. |
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz