Einzelnen Beitrag anzeigen

Benutzerbild von negaH
negaH

Registriert seit: 25. Jun 2003
Ort: Thüringen
2.950 Beiträge
 
#6

Re: Wiederkehrende Patterns in einem Text finden

  Alt 26. Jul 2007, 11:05
Gut dann formulieren wir die Aufgabe um.
Gegeben ist ein beliebig langer Text. Gesucht ist ein Baum der die im Text enthaltenen Redundanzen anzeigt.

Hat man einen längeren Text auf diese Art&Weise analysiert, zb. eben diesen Baum mit allen Redundanzen im Text erzeugt, so hat man die perfekte verlustfreie Komprimierung !

Ich schlage vor du sucht bei den Komprimieralgorithmen, zb. Huufman Tree angewendet auf lange Textphrasen statt nur Buchstaben.

Als Lösungsansatz folgender

Ein Tree, bei dem quasi alle vkommenden Buchstaben des Alphabethes auf einem Level liegen. Ausgehend von einer Node im Baum stellen deren Childrens quasi ein Wort im Text dar.

Nun wird der Text einfach sequenitell Buchstabe für Bichstabe durchgegangen. Es gibt fest definierte Texttrennzeichen/Satzzeichen. Man fügt für jeden Buchstaben des Textes eine Node in den Baum ein. Je tiefer die Äste im Baum werden desto länge die gefundenen Phasen. Hm, das ist denoch keine gute Lösung, kompliziertes Problem das du da aufwirfst.

Gruß Hagen
  Mit Zitat antworten Zitat