Vibecoding mit lokaler LLM statt ChatGPT: Geht das?

Vibecoding mit lokaler LLM statt ChatGPT und Claude: Geht das eigentlich? Aktuell ist Vibecoding in aller Munde, meist über kostenpflichtige Cloud-Dienste. Ich habe getestet, ob das auch komplett lokal funktioniert, ganz ohne monatliche Kosten. Die kurze Antwort: Ja, aber mit klaren Einschränkungen.

Was braucht man dafür?

Der wichtigste Faktor ist die vorhandene Hardware. Ein lokales LLM lässt sich zwar grundsätzlich auf normaler Consumer-Hardware betreiben, entscheidend sind aber VRAM und RAM. Aus meiner Erfahrung sollten es mindestens 16 GB VRAM und 32 GB RAM sein, damit ein Modell der Klasse 25 bis 40 Milliarden Parameter überhaupt geladen werden kann.

Unterhalb dieser Grenze ist Vibecoding schlicht nicht sinnvoll betreibbar. Die Modelle sind dann entweder zu klein, um brauchbare Ergebnisse zu liefern, oder sie laufen so langsam, dass die Arbeit keinen Spaß mehr macht. Nach oben hin gilt: Größere Modelle sind auf normaler Hardware zu Hause meist gar nicht mehr lauffähig, dafür fehlt schlicht der Speicher.

Welches Modell eignet sich?

Aktuell, Mitte 2026, haben sich vor allem zwei Modelle etabliert, die für diesen Einsatzzweck gut funktionieren:

  • Gemma 4 31B-IT
  • Qwen 3.6-35B-A3B

Wichtig dabei: Dieser Bereich ist extrem schnelllebig. Alle paar Wochen bis Monate erscheint entweder ein komplett neues Modell oder eine optimierte Version eines bestehenden. Wer auf dem Laufenden bleiben möchte, sollte einen Blick auf die Hugging Face Trending-Liste für Modelle zwischen 24B und 64B Parametern werfen.

Idealerweise läuft das gewählte Modell dann über llama.cpp. Die Konfiguration dafür ist möglich, würde aber den Rahmen dieses Artikels sprengen und wird hier nicht weiter behandelt.

Coding Agent oder direkt in VS Code

Sobald das lokale Setup läuft, kann darauf ganz normal ein Coding Agent zugreifen, oder man bindet das Modell direkt in VS Code oder ähnliche Editoren ein. Technisch unterscheidet sich das kaum von der Nutzung einer Cloud-Lösung, nur dass eben das eigene, lokal laufende Modell im Hintergrund arbeitet statt Claude oder ChatGPT.

Wie schlägt sich das im Vergleich zu ChatGPT und Claude?

In meinen Tests mit Gemma 4 und Qwen 3.6 lassen sich einfache Aufgaben problemlos umsetzen. Je nach eigener Hardware dauert die Bearbeitung allerdings erheblich länger als bei Cloud-Lösungen. Das ist auch der Punkt, an dem sich schnell zeigt, wofür das Setup wirklich taugt.

Werden beispielsweise nur Auto-Complete-Funktionen in VS Code benötigt, reicht dafür auch ein kleineres und schnelleres Modell völlig aus. Bei umfangreicheren Aufgaben oder Tasks, die mehr Kontextverständnis und „Denken“ erfordern, stößt man mit den lokalen Modellen dagegen recht schnell an Grenzen. Die Qualität der Ergebnisse kann dann spürbar hinter dem zurückbleiben, was man von Claude oder ChatGPT gewohnt ist.

Wofür eignet sich das lokale Setup wirklich?

Am besten funktioniert der lokale Ansatz bei kleineren Aufgaben oder dem Abarbeiten ganz konkreter, klar umrissener Tasks. Für komplexe Planungsarbeit oder größere Architekturentscheidungen ist er weniger geeignet.

Deshalb arbeiten viele mittlerweile mit einem hybriden Ansatz: Eine Cloud-Lösung wie ChatGPT oder Claude übernimmt die Erstellung eines umfangreichen Entwicklungsplans, also die eigentliche Denkarbeit. Die einzelnen, konkreten Schritte daraus lassen sich dann problemlos über das lokale Setup umsetzen. So spart man sich einen Teil der Cloud-Kosten, ohne auf die Stärken der großen Modelle komplett verzichten zu müssen.

Fazit: Kostenloser Weg mit Grenzen

Am Ende des Tages lässt sich sagen: Über den kostenlosen, lokalen Weg ist bereits einiges möglich. Wer die passende Hardware besitzt und sich mit der Einrichtung von llama.cpp und einem passenden Modell wie Gemma 4 oder Qwen 3.6 auseinandersetzt, kann für viele Alltagsaufgaben tatsächlich auf Claude oder ChatGPT verzichten.

Gleichzeitig gibt es einen guten Grund, warum die kostenpflichtigen Dienste weiterhin existieren und stark genutzt werden: Bei komplexeren Aufgaben, längerem Kontext oder Aufgaben, die echtes Durchdenken erfordern, spielen die großen Cloud-Modelle ihre Stärken voll aus. Wer beides kombiniert, dürfte für den eigenen Workflow aktuell am besten fahren.

Schreibe jetzt einen Kommentar!