Ein LLM "Hello World" mit Delphi sieht für mich so aus:
Eine Delphi
Unit - zur Not mit einer Komponente - Läd Daten eines LLM und kann dann ohne externe Resourcen die Frage(n) beantworten.
Das Stück Software, das die "Daten eines LLM", also diese Milliarden Parameter, Gewichtungen und Biases, direkt lädt und damit das LLM ausführt, nennt sich inference engine.
Ich wüsste ehrlich gesagt von keiner Inference Engine die in Delphi implementiert ist.
Llamacpp als eine inference engine z.B. ist in C++ geschrieben. Du könntest jetzt - rein theoretisch - diesen C++ Teil nehmen, direkt dagegen linken und damit die Engine In-Proc ausführen. Aber da würde ich mich ehrlich fragen wo da der Vorteil läge, wenn Du es sinnvoll out-of-process mit einer Web-
API betreiben und ansprechen kannst.
Zumal dann der Wechsel zu einem hosted Model - und wie gesagt sind die deutlich mächtiger - nur daraus besteht, die
URL statt zum lokalen Ollama z.B. auf Mistral zu ändern und einen
API-Key zu hinterlegen.
Naja, bei In-Process kann typischerweise keiner weas blockieren. Bei Webverbindungen, selbst auf dem Local Host, kann so das eine oder andere in die Quere kommen...