Registriert seit: 30. Jul 2008
125 Beiträge
|
Re: Hashberechnung der Topologie eines Wortes - wie?
21. Mai 2010, 15:24
Hi himitsu,
bisher habe ich mich mit dem code zurückgehalten, da wie Hagen schon sagte, man damit sehr schnell spezifisch wird. Da ich aber ohnehin auf die Sortierung nach der Wortlänge angewiesen sein werde, habe ich schonmal so weit es geht, zu coden angefangen. Mein Profiler erzeugt eine Zahl der "entarteten" Symbole und einen Hashwert, um deren Position festzulegen:
Delphi-Quellcode:
type TMetaListEntry = record
len : integer; // trivial length
repchars: integer; // count reoccuring characters
rephash: int64; // assign ascending prime numbers to character places, form product
fourcc: cardinal; // first four characters as bytes
end;
const primetable : array [1..58] of integer = (
2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,
61,67,71,73,79,83,89,97,101,103,107,109,113,127,
131,137,139,149,151,157,163,167,173,179,181,191,
193,197,199,211,223,227,229,233,239,241,251,257,
263,269,271);
var charhistogram: array[0..255] of byte;
function WordProfile(w: string): TMetaListEntry;
var
i: integer;
pa: PByteArray;
pc: ^Cardinal absolute pa;
o: integer;
begin
result.len := length(w);
ZeroMemory(@charhistogram[0],256);
result.repchars := 0;
result.rephash := 1;
for i := 1 to result.len do
begin
o := ord(w[i]);
inc(charhistogram[o]);
if charhistogram[o] = 2 then inc(result.repchars);
end;
for i := 1 to result.len do
begin
if charhistogram[ord(w[i])] > 1 then
result.rephash := result.rephash * primetable[i];
end;
pa := @w[1];
case result.len of
1: result.fourcc := pa[0];
2: result.fourcc := pa[0] + pa[1]*$100;
3: result.fourcc := pa[0] + pa[1]*$100 + pa[2]*$10000;
else result.fourcc := pc^;
end;
end;
ich schau mir mal eben deinen Vorschlag an
edit: eine Schleife eliminiert.
|