Ja, richtig. Man muss ich immer genau darüber im klaren sein, was ein NN so kann und was nicht. Die richtigen Vorraussetzungen für die Arbeit des Netzes zu schaffen ist wichtig. Deshalb muss man aus Bildern, vor allem aus denen von Webcams, erstenmal die wichtigsten Daten exrapolieren.
Bei der Erkennung von Nummernschildern könnte das so aussehen:
1.) Man sucht sich im Bild ein (halbwegs) schwarz umrandetes weißes Viereck, bei dem ein bestimmtes Verhältnis von Breite zu Höhe vorliegt (innerhalb gewisser Toleranzen)
2.) Man sucht sich alles raus, was nicht zusammenhängt.
3.) Punkte wie die TÜV-Plakette raus
4.) Dann die Buchstaben und Zahlen Vektorisieren und dem Netz in schön normierter Form zu futtern geben
Es gibt 562 verschiedene Orte/Kreise, die die ersten 1-3 Buchstaben eines Kennzeichens ausmachen.
Weiter gibt es die Formate mit zwei Buchstaben und drei Ziffern und das mit 3 Buchstaben und zwei Ziffern. Kommunen fahren oftmals Kennzeichen mit bloß 4 Ziffern.
Macht also:
10^4 = 10.000 Möglichkeiten für die Kommunen
26^2 * 10^3 + 26^3 * 10^2 = 676.000+1.557.600 = 2.233.600 Möglichkeiten für Otto-Normal-Verbraucher
-------
562 * (10.000 + 2.233.600) =
1.260.903.200 Mögliche Autokennzeichen
Ich hoffe, ich habe jetzt auf die Schnelle keine groben und peinlichen Rechenfehler gemacht
Aber das sind schon ein paar Autos, die man da erkennen könnte. Ist zwar schon tausendmal gemacht worden, sowas. Aber naja, ähnlich ist es mit den Captchas ja auch.
Um auf den Einwand von Reinard einzugehen:
Sicherlich macht es null Sinn, das komplette Bild in ein NN zu "laden". Es käme mit der Flut aus unterschiedlichen Zuständen nicht klar. Aber wenn man das Bild schön monochrom macht, sich nur die Objekte rauspackt, die sich bewegen, dann kann man mit dem Netz schon beispielsweise zwei unterschiedliche Kuscheltiere oder ähnliches Unterscheiden. Wenn es dann die Barbie ist, kann man sie automatisch abschießen, oder was auch immer
LG, Markus