Delphi-PRAXiS

Delphi-PRAXiS (https://www.delphipraxis.net/forum.php)
-   Sonstige Fragen zu Delphi (https://www.delphipraxis.net/19-sonstige-fragen-zu-delphi/)
-   -   Delphi schnelle Algorithmen für Textanalyse gesucht (https://www.delphipraxis.net/50657-schnelle-algorithmen-fuer-textanalyse-gesucht.html)

Panthrax 29. Jul 2005 00:18


schnelle Algorithmen für Textanalyse gesucht
 
Hallo.

Ich möchte Text analysieren. Typische Fragen dabei sind:
  • Wie häufig ist jedes Wort? :gruebel:
  • Wie häufig ist jede Wortgruppe? :gruebel:
  • Wie nah sind sich Wörter und Wortgruppen mit anderen Wörtern und Wortgruppen? Soll heißen: Wort(gruppe) A und Wort(gruppe) B stehen 0, 1, 2, 3,... Worte auseinander. :gruebel:
  • Sind Worte/Wortgruppen zitiert? Welche, wie häufig? :gruebel:
  • Wie kann ich die Formatierung der Worte als Gewichtung einfließen lassen? :gruebel:
  • ...
Wer kennt Projekte, bei denen man sich ähnliche Funktionen ansehen kann? Gibt es Delphi-Komponenten oder -Funktionen, die sich mit sowas beschäftigen? Gibt es schon Routinen in dieser Richtung?

Ich habe schon in etlichen Suchmaschienen gesucht und so... Aber entweder mir fehlen die richtigen Suchbegriffe oder keine Ahnung... :coder2:

Gruß
Panthrax

marabu 29. Jul 2005 05:42

Re: schnelle Algorithmen für Textanalyse gesucht
 
Hallo Panthrax,

der elementare Ansatz bei der Textanalyse ist die Trennung von zwei Funktionalitäten: der harvester / analyzer zerlegt die Texte in Wörter (und Sätze, Abschnitte, je nach Anspruch) und hält deren Dokumentzugehörigkeit in einer Datenbank fest. Der query processor liefert dann die gewünschte Information.

Der Parser scheint mir nicht sehr aufwendig zu sein. Problematischer ist die Implementierung eines performanten Speichers, der auch mit großen Textmengen (Kompression) zurecht kommt.

Es gibt eine Reihe von OpenSource Projekten, die sich mit full text retrieval befassen:
ht://dig, Harvest, Harvest-NG, SWISH-E.

Hier findest du eine Linksammlung.

Und für Delphi-Entwickler ist vielleicht Rubicon interessant.

Grüße vom marabu

Panthrax 29. Jul 2005 11:54

Re: schnelle Algorithmen für Textanalyse gesucht
 
Ich habe mir schon einige Sachen mal angesehen. Nicht schlecht. Danke. :thumb:

Bin aber auch gern noch für weitere Implementierungen zu haben.

Panthrax


Alle Zeitangaben in WEZ +1. Es ist jetzt 22:47 Uhr.

Powered by vBulletin® Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
LinkBacks Enabled by vBSEO © 2011, Crawlability, Inc.
Delphi-PRAXiS (c) 2002 - 2023 by Daniel R. Wolf, 2024-2025 by Thomas Breitkreuz