Registriert seit: 25. Jun 2003
Ort: Thüringen
2.950 Beiträge
|
Re: Hashberechnung der Topologie eines Wortes - wie?
21. Mai 2010, 15:29
Hi Himitsu,
ich meine eben das es noch zu früh ist sich auf einen Algo festzulegen. Er soll erstmal eine Häufigkeitsanalyse machen. Der erste und einfachste Schritt: alle Symbole zählen und mit der Buchstabenhäufigkeiten der deutschen Sprache vergleichen. Dann diese Analyse erweitern indem man die zusätzlich Häufigkeiten/Wahrscheinlichkeiten von Doppelbuchstaben ermittelt. Also wie oft kommt es vor das vor oder nach einem "e" der Buchstabe "i" vorkommt. Gleiches für die Symbolhäufigkeiten der Nachricht. Das kann man so immer weiter treiben also Dreierbruchstabenkombinationen usw. usw. Hat man diesen Baum erzeugt kann man so auch jedes deutsche Wort klassifizieren. Nun hat man zwei Bäume von Wahrscheinlichkeiten zu den Symbolen/Wörtern der Nachricht in Vergleich zur Wortdatenbank der deutschen Wörter. Welche konkreten Symbole/Buchstaben benutzt wurden ist eine Information die wir über die Häufigkeitsbäume eliminiert haben. Nun sucht man einfach in beiden Bäumen die Worte mit übereinstimmenend Häufigkeits-Signaturen und subsituiert diese Symbolgruppe durch das deutsche Wort. Bei dieser Substitution kann man die Transpositionstabelle von Symbolen im Wort zu deuschen Buchstaben im ausgewählten Wort ausrechnen. Alle nachfolgenden Symbolgruppen die mit deutschen Wörtern ausgetauscht werden, müssen exakt dieser Transpositiontabelle entsprechen. Die Suchschleife bricht dann ab wenn so alle Symbolgruppen in deutsche Wörter umgewandelt wurden und alle mit der gleichen Transpositionstabelle gearbeitet haben. Die Suchfunktion beginnt von neuem wenn dies nicht der Fall ist, man wählt also das nächst beste passende deutsche Wort für die erste Symbolgruppe, berechnet die sich ergeben Transpositionstabelle der ausgetauschten Buchstaben und macht weiter mit der restlichen Nachricht mit gleicher Tabelle.
Gruß Hagen
|