AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Thema durchsuchen
Ansicht
Themen-Optionen

PDF-Dokumente in eine Datenbank oder nicht

Ein Thema von RWarnecke · begonnen am 20. Jan 2015 · letzter Beitrag vom 22. Jan 2015
Antwort Antwort
Seite 6 von 6   « Erste     456   
Benutzerbild von Nersgatt
Nersgatt

Registriert seit: 12. Sep 2008
Ort: Emlichheim
693 Beiträge
 
Delphi 10.1 Berlin Professional
 
#51

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 08:45
Oder nur ein inkrementelles Backup täglich machen und vielleicht nur wöchentlich ein Vollbackup.
Jens
  Mit Zitat antworten Zitat
Dumpfbacke

Registriert seit: 10. Mär 2005
Ort: Mitten in Deutschland
332 Beiträge
 
Delphi 10.2 Tokyo Professional
 
#52

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 09:46

Wir nutzen gescannte pdfs schon seit mehr als 10 Jahren, um die in eine Firebird DB zu packen und haben ein kleines viewer programm da drauf, mit dem man im extrahierten Text in einer zweiten Blobtabelle mit fk auf den PDF in der PDFBlob Tabelle eine Volltextsuche machen kann.
Wie kann man den den Text einer PDF Datei extrahieren ? Nutzt Ihr dazu eine Texterkennung die aus einem Programm angesteuert wird oder wie bekomme ich so etwas den hin ?

Für das Auslesen der DB nutze ich eine SP, die einfach die Blobs aus der Produktions DB zu einem PK ausliest und wenn die dort nichts gefunden hat, dann sucht die eben per execute statement on external auf der Archiv DB.
Könnte ich hierzu einmal bitte ein Beispiel bekommen wie ich so etwas zaubern kann ? So etwas habe ich schon mal benötigt aber niemals hinbekommen. Ich hoffe ich habe es richtig verstanden habe. Ich habe hier zwei Datenbanken mit jewals einer Tabelle. Nun mache ich eine Suche und wenn der Datensatz nicht in der 1. DB ist wird in der 2. DB nachgesucht. Dises geht mit einem SQL ?

Des weiteren hatte ich noch eine Frage. Ich habe Delphi 7 un benutzte die IBX Komponeneten. Wie bekomme ich eine PDF Datei denn in die Datenbank rein und später erneut raus un sie anzuzeigen ?

Tanja
Tanja
  Mit Zitat antworten Zitat
Benutzerbild von Sir Rufo
Sir Rufo

Registriert seit: 5. Jan 2005
Ort: Stadthagen
9.454 Beiträge
 
Delphi 10 Seattle Enterprise
 
#53

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 09:49
Oder nur ein inkrementelles Backup täglich machen und vielleicht nur wöchentlich ein Vollbackup.
Wie sieht denn ein inkrementelles Backup von einer Datei aus?
(Denn darauf läuft es hinaus, wenn alle Dateien in der Datenbank sind)

Wie unterscheidet sich das vom Vollbackub? - Gar nicht
Kaum macht man's richtig - schon funktioniert's
Zertifikat: Sir Rufo (Fingerprint: ‎ea 0a 4c 14 0d b6 3a a4 c1 c5 b9 dc 90 9d f0 e9 de 13 da 60)
  Mit Zitat antworten Zitat
Benutzerbild von Nersgatt
Nersgatt

Registriert seit: 12. Sep 2008
Ort: Emlichheim
693 Beiträge
 
Delphi 10.1 Berlin Professional
 
#54

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 09:50
Oder nur ein inkrementelles Backup täglich machen und vielleicht nur wöchentlich ein Vollbackup.
Wie sieht denn ein inkrementelles Backup von einer Datei aus?
(Denn darauf läuft es hinaus, wenn alle Dateien in der Datenbank sind)

Wie unterscheidet sich das vom Vollbackub? - Gar nicht
Du kannst mit nbackup von Firebirddatenbank inkrementelle Backups erstellen:
http://www.firebirdsql.org/manual/de...e-backups-incr

Natürlich nicht auf Dateiebene.
Jens
  Mit Zitat antworten Zitat
mkinzler
(Moderator)

Registriert seit: 9. Dez 2005
Ort: Heilbronn
39.858 Beiträge
 
Delphi 11 Alexandria
 
#55

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 09:54
Zitat:
Wie kann man den den Text einer PDF Datei extrahieren ? Nutzt Ihr dazu eine Texterkennung die aus einem Programm angesteuert wird oder wie bekomme ich so etwas den hin ?
Viele PDF-Dateien haben einen Volltextindex. Mit Acrobat o. ähnlichen Programmen kann man diesen auch nachträglich erzeugen lassen ( wenn notwendig auch per OCR z.B. wenn die Dokumente eingescannt wurden).
Zur Beschleunigung der Suche bietet es sich aber an, den Inhalt noch einmal gesondert zu Verwalten (Volltextindex o.ä.)
Markus Kinzler
  Mit Zitat antworten Zitat
Perlsau
(Gast)

n/a Beiträge
 
#56

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 10:41
Des weiteren hatte ich noch eine Frage. Ich habe Delphi 7 un benutzte die IBX Komponeneten. Wie bekomme ich eine PDF Datei denn in die Datenbank rein und später erneut raus un sie anzuzeigen ?
Zum Einlesen der PDF-Datei in den Speicher verwendest du TFilestream. Diesen kopierst du dann in einen TBlobstream:
Delphi-Quellcode:
Function TDatMod.FileToBlob(Feld: TField; Datei: String): Boolean;
Var
   S : TStream;
   FileS : TFileStream;

begin
   Result := False;
   If Not FileExists(Datei) Then Exit; // aussteigen, wenn Datei nicht existiert
   If Not Feld.IsNull Then Feld.Clear; // Feld löschen, wenn es bereits befüllt ist

   Try
     S := Feld.DataSet.CreateBlobStream(Feld, bmReadWrite); // Blob-Stream erzeugen
     FileS := TFileStream.Create(Datei, fmOpenRead); // File-Stream erzeugen

     Try
       S.CopyFrom(FileS, FileS.Size); // Inhalt des File-Streams in Blob-Stream kopieren
       Result := True;
     Finally
       FileS.Free; // File-Stream freigeben
       S.Free; // Blob-Stream freigeben
     End;
   Except
     on e:exception Do
     Begin
       If Assigned(FileS) Then FileS.Free;
       If Assigned(S) Then S.Free;
       GLD.Fehlertext := e.Message;
     End;
   End;
end;
  Mit Zitat antworten Zitat
Benutzerbild von DeddyH
DeddyH

Registriert seit: 17. Sep 2006
Ort: Barchfeld
27.619 Beiträge
 
Delphi 12 Athens
 
#57

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 11:10
Das Exception-Handling sollte man aber noch einmal überdenken, FileS kann im blödesten Fall ein Dangling Pointer sein, da kann man später doppelt auf Assigned prüfen, nützt nix.
Detlef
"Ich habe Angst vor dem Tag, an dem die Technologie unsere menschlichen Interaktionen übertrumpft. Die Welt wird eine Generation von Idioten bekommen." (Albert Einstein)
Dieser Tag ist längst gekommen
  Mit Zitat antworten Zitat
Benutzerbild von IBExpert
IBExpert

Registriert seit: 15. Mär 2005
671 Beiträge
 
FreePascal / Lazarus
 
#58

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 11:40
Könnte ich hierzu einmal bitte ein Beispiel bekommen wie ich so etwas zaubern kann ? So etwas habe ich schon mal benötigt aber niemals hinbekommen. Ich hoffe ich habe es richtig verstanden habe. Ich habe hier zwei Datenbanken mit jewals einer Tabelle. Nun mache ich eine Suche und wenn der Datensatz nicht in der 1. DB ist wird in der 2. DB nachgesucht. Dises geht mit einem SQL ?
hier der reale sp quelltext aus unserer BRP Software, aber du solltest schon wissen, nach welchem Blob PK du suchst, weil du den parameter id an die sp brpgetdatei übergibt. In der Spalte TEXT haben wir aber immer den Volltext aus den PDFs extrahiert, so das man darüber mit containing gut und vergleichsweise schnell beliebige Suchen kombinieren kann. Es liesse sich aber auch das ggf noch in eine andere DB auslagern, die man dann auf einer ramdisk liegen hat oder andere lustige verfahren, wie zum Beispiel n superserverinstanzen, jeweils an die cores gebunden, die jeweils nur die volltextdaten zu einem teil der gesamt db haben und so weiter, haben wir alles schon mal so gemacht. In IMG ist übrigens ein preview des pdfs, so das ich in einer vorschau zumindest schon mal die vorschau als kachel anzeigen kann, ohne einen pdf client starten zu müssen, der ja meistens auch nur eine datei zur zeit kann.

Code:
--info: diese tabelle gibt es in beiden datenbanken
CREATE TABLE DATEI (
    ID    BIGINT NOT NULL PRIMARY KEY,
    TXT   VARCHAR(80),
    TS    TIMESTAMP,
    DATEI BLOB SUB_TYPE 0 SEGMENT SIZE 1024,
    TEXT  BLOB SUB_TYPE 1 SEGMENT SIZE 1024,
    IMG   BLOB SUB_TYPE 0 SEGMENT SIZE 1024
);


--die proozeduren sind nur in der produktivdb

create or alter procedure BRPMOVEDATA (MAXDATE date)
as
declare variable ID bigint;
declare variable DATEI blob sub_type 0 segment size 1024;
begin
  for
    select datei.id, datei.datei
    from datei
    where datei.ts<:maxdate
    and datei.datei is not null
    into :id,:datei
  do
  begin
    execute statement ('update or insert into DATEI (ID, DATEI) values (:ID, :DATEI) matching (ID)') (ID:=ID,DATEI:=DATEI)
    on external 'brpdat';

    update datei set datei.datei=null where id=:id;
  end
end;

create or alter procedure BRPGETDATEI (
    IDX bigint)
returns (
    ID bigint,
    TXT varchar(80),
    DATEI blob sub_type 0 segment size 80,
    TS timestamp)
as
begin
  select
    datei.txt,
    datei.ts,
    datei.datei
  from datei
  where datei.id=:idx
  into :txt, :ts, :datei;
  if (datei is null) then
  execute statement ('select datei from datei where id=:id') (ID:=IDX)
    on external 'brpdat'
    into datei;
  id=idx;
  suspend;
end
brpdat ist ein serverseitiger alias in der alias.conf, der auf die archiv db verweist. das könnte auch ein connectionstring auf einen ganz anderen server sein. Mit dre Prozedur BRPMOVEDATA kannst du einen zeitpunkt festlegen, ab dem alle älteren PDFs in die archiv DB wandern. Wir rufen die per aufgabenplanung am monatsanfang auf und übertragen die dateien, die älter als 30 tage sind. vorher wird per batch und gfix die db auf readwrite und danach wieder auf readonly gesetzt.
Holger Klemt
www.ibexpert.com - IBExpert GmbH
Oldenburger Str 233 - 26203 Wardenburg - Germany
IBExpert and Firebird Power Workshops jederzeit auch als Firmenschulung
  Mit Zitat antworten Zitat
Benutzerbild von IBExpert
IBExpert

Registriert seit: 15. Mär 2005
671 Beiträge
 
FreePascal / Lazarus
 
#59

AW: PDF-Dokumente in eine Datenbank oder nicht

  Alt 22. Jan 2015, 12:04
Aus Interesse: Wie lange dauert bei dir so ein Backup einer 10 Gigabyte Firebird-Datenbank? Ich hab eben mal bei mir nachgemessen. Das Backup meiner derzeit größten FB-DB mit ca. 2,7 GB dauerte 95 Sekunden auf demselben Laufwerk.
ist schon ein relativ guter Wert für nomale datenbank, d.h. übliche Verteilung maximal 10-20 Prozent Blobkram, der rest NON Blob daten. Dafür rechne ich auf brauchbaren Servern beim Backup 2-3 GB pro Minute. Das gibt aber aufgrund der sehr seriellen Bearbeitung der Daten noch keine Hinweis auf den Serverspeed, dafür ist der Restore wesentlich interessanter.

Eine reine BLOB Datenbank geht wesentlich schneller zu sichern. Hab gerade mal einen Kundenserver für den Test gequält und dessen 50GB Archiv DB (nur mit den ausgelagerten Blobs) wurde in 6 Minuten mit gbak gesichert, während der Srever und die db ganz normal vom Kunden benutzt wird.

Hardware sind jeweils die von uns gelieferten IFS Server, die nicht zaubern, aber auch nicht mit aller Gewalt (Virtualisierung, externe Storage, Raid, ...) jegliche Datenbankleistung auf USB Stick Niveau runterdrücken. Wer eine IBExpert vollversion (menü services-benchmark)hat, kann das ja mal mit seinem eigenen vergleichen: die Kiste hat einen Driveindex von 160% und einen cpu Index von 135% und kostet 2000€

Zum anderen Beitrag: inkrementelles Backup mit nbackup rate ich persönlich von ab, es sei denn, man hat extrem große Datenbank (250Gb oder noch mehr). wenn im Rahmen deine updates und deletes nämlich viele pages geändert wreden, dann sind die alle in der teilsicherung. wenn deine db 50% der pages verändert, wird deine Teilsicherung etwa 50% der originalgröße sein. Am zwiten Tag hättest du dann schon die gleiche größe wie beim normalen backup mit gbak. Spätestens am Ende der Woche wird es dann unsinn
Holger Klemt
www.ibexpert.com - IBExpert GmbH
Oldenburger Str 233 - 26203 Wardenburg - Germany
IBExpert and Firebird Power Workshops jederzeit auch als Firmenschulung
  Mit Zitat antworten Zitat
Antwort Antwort
Seite 6 von 6   « Erste     456   


Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 10:35 Uhr.
Powered by vBulletin® Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024 by Thomas Breitkreuz