Die richtigen Trainingsdaten, tja das ist die Frage.
Wir geben dem Netzwerk einen beliebigen Input und dazu gleichzeitig die richtige Antwort die wir von ihm erwarten. Der Rest, sprich "sich" darüber "Gedanken" zu machen "was" nun "wie" zusammengehört ist die Aufgabe des Netzwerkes, das wollen WIR garnicht wissen
Nur eines soll das Netzwerk aber richtig machen, es soll zu einem Input oder ähnlichem Input eine vorgegebene oder ähnlich vorgegebene Antwort liefern. Wichtig dabei ist aber das wir eben nicht wie Eltern jeden klitzkleinen Scheiß dem Netz vorplappern wollen, sondern mit möglichst wenigen oder unvollständigen Inputs soll das Netzwerk eine passable Antwort liefern. Wie, das ist uns im Grunde schnuppe.
Denoch, wenn wir schlechte Eltern sind, und einmal Hü das anderemal Hot sagen, sprich sich logisch widersprechende Trainingsangaben machen dann kann das Netz nicht lernen. Auch wenn der Zusammenhang zwischen Input und Output zu komplex für das Netzwerk ist oder das Netzwerk garnicht darauf ausgelegt ist wird es nicht in der Lage sein zu lernen.
D.h. wir müssen uns doch wiederum auch Gedanken machen wie das Netzwerk was lernt, damit es funktionieren kann.
Allerdings eben nur im Grob-Theoretischen und nicht bis zum letzten kleinen Schritt und Neuron.
Ausgehend vom
HTML wissen wir
- es muß meßbare Unterschiede geben zwischen Spam und wichtigen Seiten
- denoch ist
HTML eben
HTML und alle Seiten folgen den gleichen Regeln
- wir wissen aber definitiv nicht ob die meßbare Varianz der HTMLs zwischen Spams und wichtigen Seiten logisch ist, d.h. gibt es immer wiederkehrende Muster in Spams die sie von wichtigen Seiten unterscheiden, oder sind die Programmierer der Spams so clever und abwechslungsreich in ihrem
HTML Code das es keine Möglichkeit gibt, selbst für Menschen nicht, deren Spam HTMLs von wichtigen Seiten zu unterscheiden.
Der letzte Punkt ist aber die schönste Motivation beim Thema. Denn solche Probleme sind es in denen uns das Netzwerk wirklich überraschen kann, und aus unserer Sicht fast schon intelligent reagiert. Das liegt daran das die Informationsflut uns Menschen überlastet und so die kleinen Unterscheidungsmerkmale nicht auffallen. Dem Netzwerk entgingen solche Unterschiede aber nicht und es reagiert mit einer sauberen Lösung die wir nicht so erwartet haben.
Nun, die Trainingsdaten beim
HTML Problem sind das wichtigste. Man benötigte eine ziemlich große aber gewichte Auswahl von schlechten und wichtigen
HTML Seiten. Diese Auswahl muß mindestens zweimal vorhanden sein, sprich man benötigt zwei Test-Kataloge. Mit dem einen Katalog wird das Netzwerk trainiert mit dem zweiten wird dessen Voraussage verifiziert. Das wäre der letze Schritt nachdem man die Probleme der Aufbereitung der
HTML Seiten, deren Filterung, des Browsens gelösst hätte.
Gruß Hagen