Ich beschäftige mich nun auch seit geraumer Zeit mit LLMs, und sehe aktuell ChatGPT 4o als den Referenzstandard.
Schau Dir mal Anthropics Claude 3.5 Sonnet an. Auch sehr, sehr beeindruckend.
Und ja, kleinere Tasks funktionieren super, größere manchmal unzuverlässiger.
Aber ein Model kann ja auch aus einem großeren mehrere kleinere Machen, und die dann isoliert selber oder durch ein anderes Model bearbeiten lassen, die Teil-Ergebnisse wieder zusammenfassen, ggf. nochmal ein anderes Model drüber gucken lassen.
Oder die Teilaufgaben die nicht so ganz zuverlässig klappen lässt man 3 mal machen und kann dann mit einem anderen Prompt entweder das beste Ergebnis rauspicken oder aus den zwei besseren ein noch besseres zusammen fassen.
Da kommen wir dann in den Bereich der Agentensysteme, die mit unterschiedlichen Personas (im Prinzip der Prompt der dem Model sagt, wie es sich zu verhalten hat, also z.b. "Du bist ein Autor" oder "Du bist ein Lektor") zusammen an einem Problem arbeiten und sich gegenseitig challengen, verbessern und gemeinsam zu einem richtig, richtig guten Ergebnis kommen.
Nichts desto Trotz: Konkretes Beispiel E-Mails eines Online-Versandhandels abarbeiten. Die bekommen übers Wochenende zig Support E-Mails, viele sind automatisierte Stornos von z.B. Amazon und Ebay, aber auch einige Handgeschriebene "Brauch ich nicht mehr" Mails wenn das über den eigenen Shop ging - und das ganze unter hunderten "Falscher Artikel", "Kam defekt an", "War doch die falsche Farbe" etc. Mails. Aufgabe: Dort am Sonntag Abend die Stornos raussuchen und die Bestellung zumindest mal blockieren, so dass sie nicht am Montag Vormittag raus geht wenn der Support noch die Mails von Freitag Abend abarbeitet und noch gar nicht bei den Stornos von Sonntag Abend angekommen ist. Das zu automatisieren war eine konkrete Aufgabe. Für die immer gleich aussehenden Mails von Amazon und Ebay nimmt man dann aber besser doch eine Regex und kein LLM - ist billiger, schneller und zuverlässiger. Also nur weil man ein Model hat, ist es noch lange nicht die Lösung für alle Probleme.
Aber was gut funktioniert ist dann z.B. bei "Wo bleibt meine Sendung?"-Mails dann dem Model APIs als Tools zu geben die die Order finden und die Trackingnumber und den Versanddienstleister rausgeben, und dann auch Tools um den Status der Trackingnummer bei den Dienstleistern abzufragen, und aus diesem Ergebnis dann schon eine Antwortmail vorzuformulieren. Dann muss nur noch ein Mitarbeiter drüber gucken und absenden. Spart ziemlich viel Recherche-Zeit dort.