Ich bekomme oft die Frage: Welche Grafikkarte lohnt sich, wenn man KI‑Modelle zu Hause lokal ausführen möchte? Als jemand, der seit Jahren Hardware testet und selbst mit LLMs, Stable Diffusion und Trainings‑/Inferenz‑Setups experimentiert, habe ich mir verschiedene Karten ins Wohnzimmer gestellt — und einige Lehrgeld bezahlt. In diesem Artikel erkläre ich praxisnah, worauf es ankommt, welche Unterschiede wirklich relevant sind und welche Karte für welche Bedürfnisse Sinn macht.
Was macht eine GPU für KI‑Modelle „gut“?
Wenn wir von GPUs für KI sprechen, sind drei technische Eigenschaften zentral:
Daneben sind Power‑Budget, Kühlung, Treiber‑Stabilität und Latenz wichtig — gerade wenn man Modelle interaktiv betreibt (Chatbots, Bildsynthese).
VRAM: Die praktische Schwelle
Ein häufiger Anfängerfehler ist, nur auf GFLOPS oder Takt zu schauen. Viel wichtiger ist der VRAM‑Block. Hier ein grober Richtwert, den ich bei meinen Tests als realistisch erachte:
Wichtig: Quantisierung (4‑bit/8‑bit), Offloading auf CPU‑RAM oder Multi‑GPU‑Sharding verändern diese Zahlen stark. Tools wie GGML/llama.cpp, llama.cpp‑Derivate oder BitsAndBytes machen kleinere Karten überraschend nutzbar — auf Kosten von Genauigkeit oder Performance.
NVIDIA vs. AMD: Welche Plattform wählen?
Persönlich habe ich meist auf NVIDIA gesetzt — nicht, weil ich Fanboy bin, sondern weil das Ökosystem für lokale KI‑Workflows derzeit einfach am besten ist. CUDA, cuDNN, Optimum‑Libs, TensorRT und breite Unterstützung in PyTorch/Transformers machen vieles einfacher. Die Karten von NVIDIA (RTX 30xx, 40xx, A‑Serie für Workstations) liefern oft die beste Kombination aus Stabilität und Leistung.
AMD macht Fortschritte (ROCm, MIOpen), und für freie Grafiktreiber sowie Preis/Leistung ist AMD interessant. Allerdings fehlt noch in einigen Projekten die stabile Unterstützung, insbesondere bei Tools, die stark auf CUDA angewiesen sind.
Empfehlungen nach Budget und Nutzung
Ich habe konkrete Empfehlungen zusammengestellt — basierend auf meinen Tests, Alltagseinsätzen und der Kompatibilität mit gängigen Frameworks.
Einsteiger (bis ~300–400 EUR)
Was du bekommst: 4–8 GB VRAM. Reicht für kleine Tests, lokale Entwicklung, Tiny‑LLMs (quantisiert) und reduzierte Stable Diffusion‑Runs. Nachteile: langsamer bei FP16/Tensor‑Ops, wenig Spielraum.
Solide Allrounder (450–900 EUR)
Was du bekommst: 8–12 GB VRAM (je nach Modell). Gute Leistung für 7B und oft 13B‑Modelle, besonders mit 4‑bit‑Quantisierung oder Offloading. Effizient, relativ leise. Mein Tipp, wenn du regelmäßig mit LLMs und Bildmodellen arbeiten willst, aber kein Profi bist.
High‑End für Enthusiasten (900–2500 EUR)
Was du bekommst: 16 GB (4080), 24 GB (4090) VRAM. Hervorragend für 13B, oft 30B (mit Tricks), schnelle Bildsynthese und Low‑Latency‑Inferenz. Die RTX 4090 ist meine persönliche „Allzweckwaffe“: unfassbar schnell, aber groß, laut und hungrig.
Profi / Workstation (Server‑Level)
Diese Karten sind für professionelle Trainings und große Modelle gedacht. Sie bringen ECC‑Speicher, extrem viel VRAM und beste Stabilität. Teuer und oft an Rechenzentren oder Firmen gebunden. Für die meisten Heimanwender übertrieben — außer du willst deutlich trainieren oder große 70B+ Modelle lokal hosten.
Praktische Tipps und Tricks
Ein paar Dinge, die mir im Alltag immer wieder helfen:
Multi‑GPU und SLI — lohnt das?
Für Heimanwender selten sinnvoll. Multi‑GPU spart VRAM‑Limitierungen durch Modell‑Sharding, ist aber komplex in Setup, Treiber und Software‑Support. Für Experimente mit mehreren 24‑GB‑Karten (z. B. 2× RTX 4090) ist es mächtig, aber für die Mehrheit ist eine einzelne große Karte plus Quantisierung/Offloading praktikabler.
Welche Modelle laufen auf welcher Karte?
| Modellgröße | Praktische VRAM‑Anforderung | Empfohlene GPU |
|---|---|---|
| Small (1–3B) | 2–6 GB (quantisiert) | GTX 1660, RTX 3050 |
| Medium (7B) | 6–10 GB (quantisiert/FP16) | RTX 4060 Ti, RTX 4070 |
| Large (13B) | 12–20 GB (je nach Quantisierung) | RTX 4070/4080 (besser 4080) |
| XL (30B) | 24+ GB (meist Offload oder große Karte) | RTX 4090, A5000/A6000 |
| Very Large (70B+) | 40+ GB, Sharding | Data‑Center GPUs (H100, A100) oder Multi‑GPU Setup |
Notebook‑GPUs: praktikabel?
Mobile GPUs (z. B. RTX 4070 Laptop) sind überraschend leistungsfähig für unterwegs, aber thermisch limitiert. Wenn du mobil arbeiten willst, sind sie ein guter Kompromiss — für ernsthafte Desktop‑Leistung sind Desktop‑Karten meist besser.
Meine persönliche Empfehlung
Wenn ich heute einen neuen Gaming/AI‑PC bauen würde: RTX 4080 oder RTX 4090 (je nach Budget). Die 4090 ist teuer, aber für ein flexibles Setup mit 13B/30B Modellen und schneller Bildsynthese ist sie unschlagbar. Wenn du günstiger einsteigen willst und vor allem mit 7B/kleineren Arbeiten, ist die RTX 4060 Ti/4070 das beste Preis‑Leistungs‑Verhältnis.
Wenn du mir dein Budget und typische Modelle/Workloads nennst, kann ich dir eine konkrete Kaufempfehlung und ein System‑Setup vorschlagen — inklusive PSU, RAM und SSD. Schreib mir einfach kurz, was du genau vorhast.