Achso, damit du keine falsche Vorstellungen hast:
Das Netzwerk soll nicht nach Informationen suchen, das übernimmt Google oder jede andere Suchmaschine. Es soll lernen so wie WIR die gefundenen Resulate nach UNSEREM Geschmack zu unterscheiden, nach wichtig und unwichtig. Es soll also nach Möglichkeit die Seiten selbständig so klassifizieren wie wir es getan hätten. Das Ziel ist es also Zeit zu sparen da das Netzwerk rund um die Uhr tausende von Seiten abarbeiten kann, so als wenn wir das machen müssten.
Dies impliziert also auch das das Netzwerk sich unserem "Geschmack" anpasst, das jeder für sich das Netzwerk persönlich trainieren muß.
Das Netzwerk sucht also nicht nach Informationen, sondern filtert eine Google Suche indem es dem Link folgt und diese
HTML Seiten für uns klassifiziert und in Kataloge einordnet.
Wie könnte das gehen ?
Als erstes mal müsste man das
HTML Format genauer untersuchen. Sprich wie kann man das
HTML so vorfiltern das es eine gewichte Abschätzung liefert über prozentuale Anteile von Headern, Bildern, Verlinkungen, Texten, welche Sprache enthält der Text, Java Scripten usw. usw. Dieser Output wäre schon ein Input für das Netzwerk. Zb. die blöden Conrad-Elektronik Verlinkungs-Seiten die auf jedes Suchwort reagieren, immer andere
URL's benutzen und denoch alle bei Conrad landen, ließen sich damit schon ausfiltern. Denn alle diese Seiten haben eine überdurchschnittliche Link-Anzahl. Oder Porno Seiten haben eine überdurchschnittlich hohe Anzahl von Bildern.
Danach könnte man noch die verbleibenden Textuellen Informationen dem Netz zuführen. Man müsste den Text aber vorher Klassifizieren. Vorstellbar wäre das indem man Wörterbücher benutzt, für Deutsch, Englisch usw. und nun die Häufigkeit der übereinstimmenden Wörter zu jedem Wörterbuch berechnet. Man könnte also auch Wörterbücher mit verbotenen Wörtern oder mit gesuchten Wörtern aufbauen und so die verlinkten
HTML's untersuchen.
Es wäre auch möglich eine "Spektralanalyse" über die verbleibenden Texte oder Bilder durchzuführen. D.h. per Fourier Transformation wird sozusagen eine Frequenzspektrum über die Daten erzeugt. Vorteil dabei ist das man so beliebig große Datenmengen auf eine kleine Datenmenge mit fester Größe (z.B. 128 Doubles) reduzieren kann. Diese 128 Werte werden ebenfalls dem Netzwerk zugeführt.
Gruß Hagen