ki‑gpu für zuhause: welche grafikkarte lohnt sich für lokal ausgeführte modelle?

Ich bekomme oft die Frage: Welche Grafikkarte lohnt sich, wenn man KI‑Modelle zu Hause lokal ausführen möchte? Als jemand, der seit Jahren Hardware testet und selbst mit LLMs, Stable Diffusion und Trainings‑/Inferenz‑Setups experimentiert, habe ich mir verschiedene Karten ins Wohnzimmer gestellt — und einige Lehrgeld bezahlt. In diesem Artikel erkläre ich praxisnah, worauf es ankommt, welche Unterschiede wirklich relevant sind und welche Karte für welche Bedürfnisse Sinn macht.

Was macht eine GPU für KI‑Modelle „gut“?

Wenn wir von GPUs für KI sprechen, sind drei technische Eigenschaften zentral:

VRAM (Videospeicher): Die Menge an Modell‑ und Aktivierungsdaten, die die Karte gleichzeitig halten kann. Je größer das Modell, desto mehr VRAM braucht man.

Compute‑Leistung und Architektur: Tensor‑Cores (bei NVIDIA), FP16/FP32/INT8 Performance, Bandbreite der GPU‑Speicher. Moderne Architekturen (z. B. NVIDIA Ada Lovelace, Ampere) bieten deutlich bessere KI‑Leistung pro Watt als ältere Karten.

Software‑Ökosystem: CUDA, cuDNN, TensorRT, PyTorch/ONNX Unterstützung. Bei NVIDIA ist dieses Ökosystem ausgereift; AMD holt auf, aber für viele Tools bleibt NVIDIA die praktischste Wahl.

Daneben sind Power‑Budget, Kühlung, Treiber‑Stabilität und Latenz wichtig — gerade wenn man Modelle interaktiv betreibt (Chatbots, Bildsynthese).

VRAM: Die praktische Schwelle

Ein häufiger Anfängerfehler ist, nur auf GFLOPS oder Takt zu schauen. Viel wichtiger ist der VRAM‑Block. Hier ein grober Richtwert, den ich bei meinen Tests als realistisch erachte:

4–8 GB VRAM: Einstieg für kleine Diffusion‑Modelle (downsized) oder sehr kleine LLMs (quantisiert).

8–12 GB VRAM: Solide für viele 7B‑Modelle (quantisiert) und kleinere Stable‑Diffusion‑Workflows.

16–24 GB VRAM: Sehr gut für 13B‑Modelle ohne zu viel Offloading; komfortabel für Bildsynthese in hohen Auflösungen.

24+ GB VRAM: Erlaubt 30B‑Modelle oder komfortables Arbeiten mit größeren Bildmodellen. Für 70B‑Modelle reicht es oft noch nicht ohne Sharding oder Out‑of‑Core‑Strategien.

Wichtig: Quantisierung (4‑bit/8‑bit), Offloading auf CPU‑RAM oder Multi‑GPU‑Sharding verändern diese Zahlen stark. Tools wie GGML/llama.cpp, llama.cpp‑Derivate oder BitsAndBytes machen kleinere Karten überraschend nutzbar — auf Kosten von Genauigkeit oder Performance.

NVIDIA vs. AMD: Welche Plattform wählen?

Persönlich habe ich meist auf NVIDIA gesetzt — nicht, weil ich Fanboy bin, sondern weil das Ökosystem für lokale KI‑Workflows derzeit einfach am besten ist. CUDA, cuDNN, Optimum‑Libs, TensorRT und breite Unterstützung in PyTorch/Transformers machen vieles einfacher. Die Karten von NVIDIA (RTX 30xx, 40xx, A‑Serie für Workstations) liefern oft die beste Kombination aus Stabilität und Leistung.

AMD macht Fortschritte (ROCm, MIOpen), und für freie Grafiktreiber sowie Preis/Leistung ist AMD interessant. Allerdings fehlt noch in einigen Projekten die stabile Unterstützung, insbesondere bei Tools, die stark auf CUDA angewiesen sind.

Empfehlungen nach Budget und Nutzung

Ich habe konkrete Empfehlungen zusammengestellt — basierend auf meinen Tests, Alltagseinsätzen und der Kompatibilität mit gängigen Frameworks.

Einsteiger (bis ~300–400 EUR)

NVIDIA GTX 1660 Super / RTX 3050

Was du bekommst: 4–8 GB VRAM. Reicht für kleine Tests, lokale Entwicklung, Tiny‑LLMs (quantisiert) und reduzierte Stable Diffusion‑Runs. Nachteile: langsamer bei FP16/Tensor‑Ops, wenig Spielraum.

Solide Allrounder (450–900 EUR)

NVIDIA RTX 4060 Ti / RTX 4070

Was du bekommst: 8–12 GB VRAM (je nach Modell). Gute Leistung für 7B und oft 13B‑Modelle, besonders mit 4‑bit‑Quantisierung oder Offloading. Effizient, relativ leise. Mein Tipp, wenn du regelmäßig mit LLMs und Bildmodellen arbeiten willst, aber kein Profi bist.

High‑End für Enthusiasten (900–2500 EUR)

NVIDIA RTX 4080 / RTX 4090

Was du bekommst: 16 GB (4080), 24 GB (4090) VRAM. Hervorragend für 13B, oft 30B (mit Tricks), schnelle Bildsynthese und Low‑Latency‑Inferenz. Die RTX 4090 ist meine persönliche „Allzweckwaffe“: unfassbar schnell, aber groß, laut und hungrig.

Profi / Workstation (Server‑Level)

NVIDIA A5000/A6000, H100, A100

Diese Karten sind für professionelle Trainings und große Modelle gedacht. Sie bringen ECC‑Speicher, extrem viel VRAM und beste Stabilität. Teuer und oft an Rechenzentren oder Firmen gebunden. Für die meisten Heimanwender übertrieben — außer du willst deutlich trainieren oder große 70B+ Modelle lokal hosten.

Praktische Tipps und Tricks

Ein paar Dinge, die mir im Alltag immer wieder helfen:

Quantisierung nutzen: 4‑bit/8‑bit Methoden (z. B. BitsandBytes) reduzieren VRAMbedarf massiv und erlauben das Laden größerer Modelle.

CPU‑RAM und Swap einplanen: Für Offloading oder ggml/llama.cpp brauchst du viel Arbeitsspeicher. 32–64 GB RAM sind empfehlenswert, je nach Modellgröße.

NVMe‑SSD: Schnelle SSD verringert Ladezeiten und beschleunigt Offload/On‑the‑fly‑Streaming von Teilen des Modells.

Treiber & Software: Nutze aktuelle NVIDIA‑Treiber, CUDA und cuDNN. Unter Linux ist die Kompatibilität oft besser für Server‑Setups.

Kühlung & PSU: Große GPUs brauchen starke Kühlung und stabile Stromversorgung (RTX 4090 kann 450 W und mehr ziehen). Plane 750–1000 W PSU ein, je nach System.

Multi‑GPU und SLI — lohnt das?

Für Heimanwender selten sinnvoll. Multi‑GPU spart VRAM‑Limitierungen durch Modell‑Sharding, ist aber komplex in Setup, Treiber und Software‑Support. Für Experimente mit mehreren 24‑GB‑Karten (z. B. 2× RTX 4090) ist es mächtig, aber für die Mehrheit ist eine einzelne große Karte plus Quantisierung/Offloading praktikabler.

Welche Modelle laufen auf welcher Karte?

Modellgröße	Praktische VRAM‑Anforderung	Empfohlene GPU
Small (1–3B)	2–6 GB (quantisiert)	GTX 1660, RTX 3050
Medium (7B)	6–10 GB (quantisiert/FP16)	RTX 4060 Ti, RTX 4070
Large (13B)	12–20 GB (je nach Quantisierung)	RTX 4070/4080 (besser 4080)
XL (30B)	24+ GB (meist Offload oder große Karte)	RTX 4090, A5000/A6000
Very Large (70B+)	40+ GB, Sharding	Data‑Center GPUs (H100, A100) oder Multi‑GPU Setup

Notebook‑GPUs: praktikabel?

Mobile GPUs (z. B. RTX 4070 Laptop) sind überraschend leistungsfähig für unterwegs, aber thermisch limitiert. Wenn du mobil arbeiten willst, sind sie ein guter Kompromiss — für ernsthafte Desktop‑Leistung sind Desktop‑Karten meist besser.

Meine persönliche Empfehlung

Wenn ich heute einen neuen Gaming/AI‑PC bauen würde: RTX 4080 oder RTX 4090 (je nach Budget). Die 4090 ist teuer, aber für ein flexibles Setup mit 13B/30B Modellen und schneller Bildsynthese ist sie unschlagbar. Wenn du günstiger einsteigen willst und vor allem mit 7B/kleineren Arbeiten, ist die RTX 4060 Ti/4070 das beste Preis‑Leistungs‑Verhältnis.

Wenn du mir dein Budget und typische Modelle/Workloads nennst, kann ich dir eine konkrete Kaufempfehlung und ein System‑Setup vorschlagen — inklusive PSU, RAM und SSD. Schreib mir einfach kurz, was du genau vorhast.