Beste Grafikkarte fuer Stable Diffusion 2026: Ranking und Vergleich fuer Retusche und KI-Bildgenerierung
Beste Grafikkarte fuer Stable Diffusion 2026: Ranking und Vergleich fuer Retusche und KI-Bildgenerierung
Wenn du Produktretusche machst und schon mit Stable Diffusion, ComfyUI oder Forge experimentiert hast, bist du sicher schnell ueber die Hauptfrage gestolpert: welche Grafikkarte stemmt die Arbeit wirk
Intro
Wenn du Produktretusche machst und schon mit Stable Diffusion, ComfyUI oder Forge experimentiert hast, bist du sicher schnell ueber die Hauptfrage gestolpert: welche Grafikkarte stemmt die Arbeit wirklich und welche generiert ein Bild in drei Minuten und stuerzt bei der Haelfte der Aufgaben ab. Die kurze Antwort: bei KI zaehlt nicht die Gaming-Leistung, sondern der Videospeicher. Und genau diesen Parameter geizen die Hersteller in jeder Generation, damit du das Flaggschiff kaufst.
In diesem Artikel betrachten wir den Markt 2026 aus Sicht des Retuscheurs, nicht des Gamers. Was kauft man fuer welches Budget, wie viel VRAM braucht man wirklich fuer SDXL, Flux und Upscaler, warum NVIDIA fuer AMD weiterhin unerreichbar ist, und wo man sparen sollte gegenueber wo Sparen am Ende teuer wird.
Wenn du nur die Kurzantwort brauchst: das beste Verhaeltnis Preis zu Leistung bieten 2026 die RTX 4070 Ti Super 16GB (neu) und die RTX 3090 24GB (gebraucht). Bei knappem Budget gibt es die RTX 3060 12GB fuer laecherliches Geld auf dem Gebrauchtmarkt. Im Detail jetzt.
Was bei einer GPU fuer Stable Diffusion zaehlt: VRAM entscheidet alles
Die Hauptregel der KI-Generierung ist einfach: VRAM ist wichtiger als alle anderen Spezifikationen zusammen. Die Generierungsgeschwindigkeit haengt von Tensor-Kernen, Taktraten und Architektur ab, aber wenn der Speicher nicht reicht, startet die Generierung gar nicht erst.
Wenn du Stable Diffusion XL in 1024 mal 1024 mit ein paar LoRAs, einem ControlNet und einem Upscaler oeffnest, laedt das Modell die Basisgewichte in den Speicher (etwa 7 GB fuer SDXL in FP16), VAE und Text-Encoder (2 bis 3 GB), LoRA-Adapter (100 MB bis 1 GB pro Stueck), ControlNet (1 bis 2 GB pro Stueck) sowie die Latents waehrend des Samplings. Ein realistischer Workflow frisst 10 bis 12 GB, und Flux Dev in FP16 schiesst ueber 24 GB hinaus. Eine Karte mit 8 GB faengt entweder an, in den System-RAM auszulagern (und wird dabei 5 bis 10 Mal langsamer), oder wirft einfach einen Fehler.
Der zweitwichtigste Parameter ist die Architekturgeneration. Die RTX 30 (Ampere) kann FP16 rechnen, hat aber keine native FP8-Unterstuetzung. Die RTX 40 (Ada Lovelace) und die RTX 50 (Blackwell) beschleunigen Flux und SDXL mit FP8 um das 1,5-fache bei gleichem Speicherverbrauch.
Wie viel VRAM jede Aufgabe braucht
Die haeufigste Frage des Retuscheurs, der noch keine Karte gewaehlt hat: wie viel Speicher reicht. Hier die Zuordnung zu realen Aufgaben:
| VRAM | Funktioniert | Funktioniert nicht |
|------|--------------|--------------------|
| 4 GB | SD 1.5 in 512x512 mit lowvram-Flag, Basis-Inpainting | SDXL, Flux, ernsthafte Upscaler, LoRA-Training |
| 6 GB | SD 1.5 ordentlich, SDXL mit medvram und Tiled VAE | Komfortables SDXL, Flux, Modelltraining |
| 8 GB | SDXL grundlegend, ein ControlNet, einfacher Upscale auf 2048 | Flux in voller Praezision, schwere Workflows mit 2 bis 3 ControlNets |
| 12 GB | SDXL komfortabel, zwei ControlNets, Flux in Q4 oder Q5 Quantisierung, LoRA-Training fuer SD 1.5 | Flux FP16, SDXL LoRA-Training mit grossen Batches |
| 16 GB | Flux in Q8, SDXL ohne Einschraenkungen, SDXL LoRA-Training, Upscale auf 4K | Flux FP16 mit ControlNets, Videomodelle |
| 24 GB+ | Voller Flux FP16, Videomodelle (Wan, Hunyuan), Stable Diffusion 3.5 Large, Batch-Training | Nur die exotischsten Aufgaben |
Fuer einen praktizierenden Retuscheur, der KI in die Produktion integrieren will (Hintergrundgenerierung, Bilderweiterung, Stiltransfer, bg-plate-Generierung fuer Produktfotos), liegt das realistische Minimum fuer 2026 bei 12 GB. Mit 8 GB stoesst du staendig an Grenzen und verlierst Zeit mit Optimierung statt mit Arbeit.
Warum NVIDIA: CUDA und das Oekosystem
Kurz gesagt, NVIDIA hat in der KI-Generierung keine Konkurrenz. Alle wichtigen Frameworks (PyTorch, xFormers, TensorRT) sind fuer CUDA geschrieben. Alle Optimierungen, die am ersten Tag nach dem Release eines neuen Modells erscheinen, sind fuer CUDA geschrieben. Alle ComfyUI-Nodes, alle Automatic1111- und Forge-Erweiterungen werden auf NVIDIA getestet.
CUDA ist nicht nur ein Treiber, sondern ein geschichtetes Oekosystem: cuDNN, cuBLAS, TensorRT, NCCL. Wenn du SDXL auf NVIDIA startest, nutzt die GPU Tausende Personenjahre an Optimierung. Auf AMD laufen dieselben Operationen ueber Wrapper, langsamer und mit Bugs.
Konkrete Zahlen: bei einer AMD-Karte mit theoretisch gleicher Leistung (zum Beispiel RX 7900 XTX gegen RTX 4080) gewinnt NVIDIA bei der SDXL-Generierung um das 1,8- bis 2,5-fache. Auf Linux mit ROCm schrumpft die Luecke auf das 1,4-fache. Ausserdem: wenn du heute NVIDIA kaufst, laeufst du in einem Jahr jedes neue Modell ohne Verrenkungen. Bei AMD wartest du, bis jemand die Unterstuetzung portiert.
AMD unter Windows und Linux: wann es sich lohnt
Wenn du schon eine AMD-Karte hast, wirf sie nicht sofort weg. Unter Windows laeuft DirectML (ueber Microsoft Olive oder ComfyUI mit DirectML-Provider), unter Linux laeuft ROCm 6.x mit nativer PyTorch-Unterstuetzung.
Reale Szenarien, in denen AMD Sinn ergibt:
- Du hast bereits eine RX 6800, 6900 oder 7900 und kein Geld zum Wechseln
- Reine Linux-Workstation mit dem Ziel maximaler VRAM pro Euro (die RX 7900 XTX 24GB kostet etwa so viel wie eine RTX 4070 Ti Super 16GB)
- Grundsaetzliche Abneigung gegen NVIDIA und Bereitschaft, Zeit in die Konfiguration zu stecken
Wenn du eine GPU speziell fuer KI kaufst, ist AMD keine Option. Die Zeit fuer das ROCm-Setup und die Suche nach funktionierenden Forks gleicht den Preisunterschied zu NVIDIA in den ersten zwei Wochen aus.
Apple Silicon auf M1, M2, M3 und M4 laeuft ueber das MPS-Backend von PyTorch. SD 1.5 laeuft komfortabel, SDXL ist 3 bis 4 Mal langsamer als eine vergleichbare RTX 4060 Ti. Flux laeuft nur auf M3 Max und M4 Max mit 32 GB oder mehr Unified Memory. Der Hauptvorteil der Macs ist der Speicherpool, aber der Preis ist heftig. Fuer die meisten Retuscheure ist das MacBook ein Arbeitstier fuer Photoshop, und ein separater PC mit NVIDIA die KI-Station.
Karten-Ranking nach Budget
Preise als Orientierung fuer Mitte 2026, neuer Einzelhandel im Euroraum.
Bis 300 EUR: Budget-Einstieg
| Karte | VRAM | SDXL 1024 | Fazit |
|-------|------|-----------|-------|
| RTX 3050 8GB | 8 GB | etwa 45 Sek | Minimal akzeptabel, keine Reserve |
| RTX 4060 8GB | 8 GB | etwa 30 Sek | Beste neue Budgetkarte |
Die RTX 4060 ist die guenstigste Karte der 40er-Serie und hat FP8. Nachteil: nur 8 GB, was 2026 schon knapp ist. Nur kaufen, wenn das Budget hart begrenzt ist und du bereit bist, mit Kompromissen zu arbeiten (medvram, Upscaler-Tiling).
300 bis 550 EUR: vernuenftiges Minimum
| Karte | VRAM | SDXL 1024 | Fazit |
|-------|------|-----------|-------|
| RTX 3060 12GB | 12 GB | etwa 38 Sek | Beste VRAM zu Preis Relation im Budget |
| RTX 4060 Ti 16GB | 16 GB | etwa 28 Sek | Idealer Einstieg in KI-Arbeit |
Die RTX 4060 Ti 16GB ist in dieser Preisklasse 2026 die vernuenftigste neue KI-Karte. 16 GB VRAM, FP8, Ada Lovelace, 128-Bit-Bus (ein Minus fuer Gaming, fuer KI egal). Fuer etwa 520 EUR bekommst du eine Karte, die alles stemmt ausser Flux FP16.
Die RTX 3060 12GB ist weiterhin relevant, vor allem gebraucht fuer 190 bis 240 EUR. Kein FP8, aber 12 GB VRAM loesen vieles.
550 bis 1000 EUR: Arbeitspferd
| Karte | VRAM | SDXL 1024 | Fazit |
|-------|------|-----------|-------|
| RTX 4070 12GB | 12 GB | etwa 18 Sek | Schnell, aber wenig Speicher |
| RTX 4070 Super 12GB | 12 GB | etwa 16 Sek | Aehnlich, etwas schneller |
In dieser Preisklasse gibt es ein Dilemma. RTX 4070 und 4070 Super sind beim Chip schneller als die 4060 Ti 16GB, haben aber nur 12 GB. Fuer klassische Retuschearbeit mit SDXL und einem ControlNet reicht das. Aber wenn du in Richtung Flux oder Training gehst, lieber draufzahlen und eine Stufe hoeher kaufen.
1000 bis 1650 EUR: ernsthafte Produktion
| Karte | VRAM | SDXL 1024 | Fazit |
|-------|------|-----------|-------|
| RTX 4070 Ti Super 16GB | 16 GB | etwa 14 Sek | Sweet Spot 2026 |
| RTX 4080 Super 16GB | 16 GB | etwa 12 Sek | Schneller, aber der Preis beisst |
Die RTX 4070 Ti Super 16GB ist der beste Kauf fuer einen Retuscheur, der KI ernst nimmt. 16 GB VRAM, 256-Bit-Bus, FP8, Geschwindigkeit nahe der 4080. Stemmt Flux in Q8, SDXL mit jeden Einstellungen, trainiert LoRA. Diese Karte deckt deine KI-Aufgaben fuer die naechsten 2 bis 3 Jahre ab.
2200 EUR und mehr: Flaggschiffe
| Karte | VRAM | SDXL 1024 | Fazit |
|-------|------|-----------|-------|
| RTX 4090 24GB | 24 GB | etwa 12 Sek | KI-Koenig bis 2025 |
| RTX 5090 32GB | 32 GB | etwa 8 Sek | Neuer Koenig, falls verfuegbar |
Die RTX 4090 ist Industriestandard. Wenn das Budget reicht und du eine Karte willst, die in 3 Jahren noch aktuell ist, ist sie die richtige Wahl. 24 GB VRAM stemmen Flux FP16, Videomodelle, SDXL-Training.
Die RTX 5090 mit 32 GB und FP4-Inferenz-Unterstuetzung in Blackwell ist die neue Obergrenze. Wenn die Karte verfuegbar ist und das Budget passt, gibt es fuer ernsthafte KI-Produktion keinen Grund, etwas Kleineres zu kaufen.
Gebrauchtmarkt: 3060 12GB und 3090 24GB
Wenn das Budget eng ist, du aber maximalen Speicher willst, rettet der Gebrauchtmarkt die Lage. Im Euroraum sind eBay und Kleinanzeigen die offensichtlichen Kanaele.
Die RTX 3060 12GB kostet gebraucht 180 bis 230 EUR. Dafuer bekommst du 12 GB VRAM, was 90 Prozent der KI-Aufgaben abdeckt. Langsamer als die 4060 Ti, aber bei der Wahl zwischen gebrauchter 3060 12GB und neuer 3050 8GB immer die 3060.
Die RTX 3090 24GB ist der beste KI-Gebrauchtkauf. Auf eBay liegt sie bei 650 bis 880 EUR. Beim Speicher gleichauf mit der 4090, bei SDXL-Geschwindigkeit etwa 40 Prozent zurueck, aber bei halbem Preis akzeptabel. 24 GB oeffnen Flux FP16, Videomodelle, ernsthaftes Training. Nachteile: zieht 350 Watt, wird heiss, braucht ein starkes Netzteil (mindestens 850W) und gute Lueftung.
Was nicht gebraucht kaufen: alles, was im Mining war. Die RTX-30-Serie nach zwei Jahren 24/7-Hashrate ist Lotterie. Pruefe die Speichertemperaturen in HWInfo: laeuft bei der 3090 der Speicher unter Last ueber 100 Grad, sind die Waermeleitpads hinueber.
Echte SDXL-1024-Zeiten auf verschiedenen Karten
Die folgenden Zahlen sind fuer Basis-SDXL 1024 mal 1024, 30 Schritte DPM++ 2M Karras, ohne Upscale und ControlNets. Eine echte Aufgabe mit Upscale und LoRA dauert 2 bis 3 Mal so lange.
| Karte | Generierungszeit | Neupreis |
|-------|------------------|----------|
| RTX 3050 8GB | 45 Sek | 250 EUR |
| RTX 4060 8GB | 30 Sek | 305 EUR |
| RTX 3060 12GB | 38 Sek | 295 EUR (oder 215 gebraucht) |
| RTX 4060 Ti 16GB | 28 Sek | 520 EUR |
| RTX 4070 12GB | 18 Sek | 705 EUR |
| RTX 4070 Super 12GB | 16 Sek | 785 EUR |
| RTX 4070 Ti Super 16GB | 14 Sek | 1035 EUR |
| RTX 4080 Super 16GB | 12 Sek | 1470 EUR |
| RTX 3090 24GB | 17 Sek | 760 EUR gebraucht |
| RTX 4090 24GB | 12 Sek | 2500 EUR |
| RTX 5090 32GB | 8 Sek | 3480 EUR |
Hinweis: zwischen 4060 Ti 16GB und 4070 liegt 1,5-fache Geschwindigkeit, aber die 4060 Ti hat 16 GB gegen 12 GB. Fuer schwere Workflows gewinnt VRAM. Fuer reine Geschwindigkeit einfacher Generierung gewinnt die 4070.
Stromverbrauch und Kuehlung
Moderne KI-Karten sind Heizungen. Nicht so schlimm wie Mining-Rigs, aber sie verlangen Aufmerksamkeit fuer Gehaeuse und Netzteil.
- RTX 4060 und 4060 Ti: 115 bis 160 W, 550W-Netzteil reicht
- RTX 4070 und 4070 Super: 200 bis 220 W, 650W-Netzteil
- RTX 4070 Ti Super und 4080 Super: 285 bis 320 W, 750W-Netzteil
- RTX 4090: 450 W, 850 bis 1000W-Netzteil
- RTX 5090: 575 W, 1000W oder mehr
- RTX 3090 (gebraucht): 350 W, 850W-Netzteil Pflicht
Unter dauerhafter KI-Last laeuft die Karte stundenlang auf Spitzentakten. Ein Gaming-Gehaeuse mit einem einzigen Abluftluefter reicht nicht. Minimum drei Luefter: zwei Zuluft, einer Abluft. Fuer 4090 und 5090 lieber Open Bench oder ein spezialisiertes Airflow-Gehaeuse. Laerm im Arbeitszimmer nervt, also entweder Wasserkuehlung oder PC hinter einer duennen Wand.
Was tun bei knappem Budget
Wenn das Geld fuer eine ordentliche Karte fehlt, KI-Arbeit aber gemacht werden muss, gibt es drei Kompromissebenen.
Stufe 1: Optimierung auf einer Mittelklassekarte. Starte Stable Diffusion mit den Flags --medvram (6 bis 8 GB) oder --lowvram (4 GB). Aktiviere Tiled VAE und Tiled Diffusion fuer Upscales. Nutze quantisierte Modelle (Q4_K_S, Q5 GGUF fuer Flux). Die Geschwindigkeit faellt um 30 bis 50 Prozent, aber die Generierung laeuft wenigstens.
Stufe 2: Cloud-Dienste. RunPod, Vast.ai und Massed Compute bieten Zugang zu RTX 4090, A6000 oder H100 fuer 0,30 bis 2 EUR pro Stunde. Wer 5 bis 10 Renderings pro Woche macht, faehrt mit Miete guenstiger als mit eigener Karte.
Stufe 3: APIs. Replicate, Fal.ai, Leonardo per API. Du zahlst pro Generierung und musst dich nicht um Hardware kuemmern. Gut fuer gelegentliche Aufgaben, schlecht fuer systematische Arbeit. Fuer einen Retuscheur, der KI in den taeglichen Workflow integriert, amortisiert sich eigene Hardware in 3 bis 6 Monaten gegenueber der Cloud.
Was 2026 nicht kaufen
Damit du Zeit sparst:
- GTX 1660, 1660 Ti, 1660 Super: nur 6 GB, keine Tensor-Kerne, langsam. SD 1.5 laeuft zwar, aber es wird Leiden. Diese Serie ist 2026 fuer KI tot.
- GTX 1080 und 1080 Ti: selbst mit 11 GB auf der 1080 Ti macht die fehlende Tensor-Hardware sie 4 bis 5 Mal langsamer als eine 3060 12GB. Nicht mal fuer 80 EUR wert.
- RTX 2060 6GB: zu wenig VRAM, zu wenig Geschwindigkeit. Nur, wenn du sie schon hast und nichts zum Tauschen.
- RTX 4060 Ti 8GB-Version: sie mit der 16GB-Version zu verwechseln, ist ein Klassiker. 8 GB fuer 430 EUR sind zu teuer.
- AMD RX 580, 590, 5500: keine ROCm-Unterstuetzung, DirectML laeuft holprig. Deine Zeit ist mehr wert als das gesparte Geld.
- Intel Arc A770 16GB: auf dem Papier interessant, in der Praxis ist die Unterstuetzung in SD-Frameworks unausgereift. In einem Jahr koennte sie eine gute Option werden, heute nicht.
CTA: Kurs AI PRO
Du hast die Grafikkarte ausgesucht, eingebaut, ComfyUI gestartet und stehst vor der naechsten Frage: was tun mit der Hardware. Welche Modelle laden, wie einen Workflow fuer Produktfotografie bauen, wie Hintergruende fuer Marketplace-Kleidung generieren, wie eine LoRA auf eigene Produkte trainieren, wie KI in Photoshop integrieren.
Der Kurs AI PRO von gdefoto.com ist ein Praxiskurs fuer Fotografen und Retuscheure, die Stable Diffusion und Flux in die Produktion bringen. Keine Theorie ueber neuronale Netze, sondern konkrete Workflows: bg-plate-Generierung fuer Produkte, Bilderweiterung, Hintergrundwechsel, LoRA-Training auf Markenidentitaet, Integration mit Photoshop und Capture One.
Nach dem Kurs lieferst du Werbevisuals in 30 Minuten statt zwei Tagen und bietest Kunden Dienstleistungen, die Mitbewerber noch nicht beherrschen.
Fazit: was 2026 kaufen
Kurze Checkliste nach Budget:
- Bis 300 EUR: RTX 4060 8GB neu oder RTX 3060 12GB gebraucht.
- 400 bis 530 EUR: RTX 4060 Ti 16GB. Einstieg in ernsthafte KI.
- 760 bis 980 EUR: RTX 4070 Super 12GB neu oder RTX 3090 24GB gebraucht.
- 980 bis 1650 EUR: RTX 4070 Ti Super 16GB. Beste Wahl fuer die meisten Profis.
- 2200 EUR und mehr: RTX 4090 24GB oder RTX 5090 32GB. Spitze ohne Kompromisse.
Das Wichtigste: 8 GB VRAM sind 2026 schon zu wenig. 12 GB sind das Minimum fuer Komfort. 16 GB sind die vernuenftige Obergrenze fuer die meisten Aufgaben. 24 GB und mehr sind fuer alle, die taeglich an die 16 GB stossen. Spare nicht am Speicher, spare an der Geschwindigkeit. In zwei Jahren wirst du es dir danken.