AGB  ·  Datenschutz  ·  Impressum  







Anmelden
Nützliche Links
Registrieren
Zurück Delphi-PRAXiS Projekte Normalisierung von Adressen / Postalman
Thema durchsuchen
Ansicht
Themen-Optionen

Normalisierung von Adressen / Postalman

Ein Thema von hanvas · begonnen am 19. Sep 2023 · letzter Beitrag vom 21. Sep 2023
Antwort Antwort
Seite 2 von 2     12   
hanvas

Registriert seit: 28. Okt 2010
177 Beiträge
 
Delphi 11 Alexandria
 
#1

AW: Normalisierung von Adressen / Postalman

  Alt 20. Sep 2023, 19:15
Ich will, wenn ich irgendwann mit dem Training fertig bin, libpostal eigentlich einsetzen um mit Hilfe von Donut [2] Rechnungen zu parsen und anschließend die Adressen aufzuarbeiten.
Wozu braucht man die Adressen von Rechnungen? Wenn ich eine Rechnung ausstelle, kenn ich die Adresse, da ich sie selbst draufgeschrieben haben. Wenn ich eine Rechnung empfange, kenne ich die Adresse auch. Denn es ist meine eigene.
Im Grunde geht es um die automatische Verarbeitung von Dokumenten. Modelle wie Donut, Layoutlm, lilit und noch einige mehr können, entsprechendes Training vorrausgesetzt, die Inhalten von Dokumenten klassifizieren.

Also

Kunde->Hans Joerg Vasold, Schäferspforte....
Verkäufer->Amazon, Koblenz ....
Iban->DE 97 ....
TaxId->
Brutto-> 1189,00
Netto-> 1189,00
Steuer->0
Währung->€

usw.

Dabei fasst man (oder ich) die Daten zu Gruppen zusammen, also beispielsweise die Adresse(n), die Zeile(n) eine Rechnung, den Kopf oder Fuß usw. Das hat Vorteile beim Auszeichnen der Trainingsdaten, insbesondere das ich viel weniger Auszeichnen muss, ist zunächst weniger Fehleranfällig und lässt sich auch leichter trainieren.

Es hat aber unter anderem den Nachteil das ich die Gruppen später mit anderen Modellen (die ich ebenfallss trainieren muss) wieder aufsplitten muss.

Der Plan ist letztendlich ein Programm zu haben mit dem ich Dokumente (in diesem Fall Rechnungen) verarbeite, ein weiteres Programm zu haben, welches ein verarbeitetes Dokument zusammen mit den erkannten Daten präsentiert (und auch zur Korrektur verwendet werden kann) um anschließend einen Export der erkannten und korrigierten Daten durchzuführen.

cu Ha Joe
  Mit Zitat antworten Zitat
hanvas

Registriert seit: 28. Okt 2010
177 Beiträge
 
Delphi 11 Alexandria
 
#2

AW: Normalisierung von Adressen / Postalman

  Alt 20. Sep 2023, 17:23
Zitat:
Im Projekt TestPostal.exe ist eine Exception der Klasse Exception mit der Meldung 'libpostalostalman setup error' aufgetreten.
Die Klasse benötigt libpostal [1] und das entsprechende Datenmodel. Auf den Seiten von libpostal ist auch angegeben wie man sich das baut. Unter Windows würde ich aber empfehlen einfach [2] herunterladen. Der Link stammt von pypostalwin [3], das ist der nicht offizielle python/windows build der sich aber eignet. Verzeichnis C:\Workbench anlegen, die heruntergeladene Zip Datei hineinkopieren und entpacken.

Die Ordnerstruktur sollte dann so aussehen

C:\Workbench\
-->automate4te\
-->data\
-->datastore\
-->libpostal\
-->m4\
-->resources\
-->scripts\
-->src\

In dem Fall sollte alles mit den voreingestellten Werten funktionieren. Wenn man die Daten anderswo hinkopieren will oder selbst trainieren will (Anleitung unter libpostal, alternative Daten) dann muss man natürlich angeben wo die Daten liegen.

hth Ha Joe


[1] https://github.com/openvenues/libpostal
[2] https://drive.google.com/file/d/1fZU...ew?usp=sharing
[3] https://pypi.org/project/pypostalwin/
  Mit Zitat antworten Zitat
Antwort Antwort
Seite 2 von 2     12   

 

Forumregeln

Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are aus

Gehe zu:

Impressum · AGB · Datenschutz · Nach oben
Alle Zeitangaben in WEZ +1. Es ist jetzt 16:25 Uhr.
Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz