Stable Diffusion kostenlos: Installation auf dem eigenen PC fuer Nicht-Programmierer in 2026
Stable Diffusion kostenlos: Installation auf dem eigenen PC fuer Nicht-Programmierer in 2026
Wenn Sie Produktbilder fuer Amazon, eBay oder Otto retuschieren oder professionell Stillife fotografieren, haben Sie sicher schon gesehen, wie Kollegen Hintergruende generieren, Schatten dazumalen und
Intro
Wenn Sie Produktbilder fuer Amazon, eBay oder Otto retuschieren oder professionell Stillife fotografieren, haben Sie sicher schon gesehen, wie Kollegen Hintergruende generieren, Schatten dazumalen und ganze Szenen ohne Studio bauen. Die meisten haengen an kostenpflichtigen Diensten: Midjourney, Adobe Firefly, Magnific. Das Abo tickt jeden Monat weiter, die Bilder liegen auf fremden Servern und die Produktkarten Ihrer Kunden landen in irgendeiner Cloud.
Eine kostenlose Alternative gibt es. Stable Diffusion laeuft auf Ihrem eigenen Rechner, ohne Internet und ohne Abo. Das Modell ist offen, die Gewichte liegen auf Hugging Face und Civitai, der Quellcode von A1111 ist auf GitHub. Einmal installiert, generieren Sie so viele Bilder wie Sie wollen, auch tausend pro Tag.
In diesem Artikel gehen wir die Installation von Null durch. Keine Terminalorgie mit 200 Befehlen, kein Docker, kein WSL. Nur Python, Git und eine saubere Browseroberflaeche. Wir sind diesen Weg im AI PRO Kurs selbst gegangen und wiederholen ihn hier fuer Sie. Am Ende des Artikels haben Sie ein funktionierendes Stable Diffusion auf dem Rechner und mehrere bewaehrte Modelle fuer Produktfotografie und Retusche.
Was Stable Diffusion ist und warum man es lokal installiert
Stable Diffusion ist ein neuronales Netz, das Bilder aus Text generiert. Stability AI hat die erste Version 2022 mit offenen Gewichten veroeffentlicht. Seitdem hat die Community Tausende abgeleiteter Modelle trainiert: fuer Portraits, Anime, Produktfotos, Architektur, Mode.
Das Prinzip ist einfach. Sie schreiben einen Prompt ("silberner Ring mit Saphir auf weissem Hintergrund, weiches Licht, Studioaufnahme"), das Modell jagt Rauschen durch das Netz und verwandelt es schrittweise in ein Bild. Anders als bei Midjourney, wo das Ergebnis auf einem fremden Server entsteht und Sie keine Detailkontrolle haben, gibt Ihnen lokales Stable Diffusion vollen Zugriff.
Stable Diffusion vs Midjourney vs DALL-E 3 vs Firefly
| Parameter | Stable Diffusion lokal | Midjourney v7 | DALL-E 3 | Adobe Firefly 3 |
|---|---|---|---|---|
| Preis | Gratis | ab 10 EUR/Monat | im ChatGPT Plus | im Creative Cloud |
| Datenschutz | Alles auf Ihrem PC | Auf Servern | Auf OpenAI-Servern | Auf Adobe-Servern |
| ControlNet, Inpainting, LoRA | Ja, vollstaendig | Nein | Nein | Teilweise |
| Eigene Modelle und LoRA | Ja | Nein | Nein | Nein |
| Kommerzielle Nutzung | Ja (Modelllizenz pruefen) | Nur Bezahlplaene | Ja | Ja |
| Einstiegskurve | Hoch | Niedrig | Minimal | Niedrig |
Wer einen Beitrag pro Woche produziert, ist mit Midjourney schneller dran. Wer als Retuscheur 50 Produktkarten am Tag generiert, hat lokales Stable Diffusion in einem Monat raus.
PC-Anforderungen: was Sie 2026 brauchen
Die zentrale Ressource ist Videospeicher (VRAM) auf einer Nvidia-Karte. Das ist weder Arbeitsspeicher noch SSD-Platz, sondern Speicher direkt auf der GPU. Ohne ihn laedt das Modell schlicht nicht. AMD und Intel Arc funktionieren auch, aber nur ueber Krueckwege (DirectML, ROCm unter Linux), und das ist nichts fuer Einsteiger.
Minimum zum Start
- Nvidia-GPU mit 6 GB VRAM (RTX 2060, RTX 3050, GTX 1660 Super)
- 16 GB Arbeitsspeicher
- 100 GB freier SSD-Platz (Modelle wiegen 2 bis 7 GB je Stueck, der Ordner fuellt sich schnell)
- Windows 10/11 oder Linux
- Aktueller Nvidia Studio Driver
Mit diesem Minimum laufen SDXL und Flux nicht, nur das Basismodell SD 1.5. Ein Bild mit 512x512 braucht 15 bis 25 Sekunden.
Empfohlene Konfiguration
- Nvidia-GPU mit 12 bis 16 GB VRAM (RTX 4070, RTX 4070 Ti Super, RTX 5070, gebrauchte RTX 3090)
- 32 GB Arbeitsspeicher
- 1 TB NVMe SSD fuer Modelle und Cache
- Gute Kuehlung, die Generierung heizt die Karte wie Mining
Auf einer RTX 4070 Super (12 GB) rendert ein SDXL-Bild in 1024x1024 in 8 bis 12 Sekunden, Flux dev in 30 bis 40 Sekunden. Das ist ein tragfaehiges Tempo fuer kommerzielle Auftraege.
Wann sich die lokale Installation nicht lohnt
Wenn Sie ein Notebook mit integrierter Grafik haben, ein MacBook mit M1/M2 ohne 32 GB Unified Memory oder einen alten PC ohne dedizierte GPU, dann quaelen Sie sich nicht. Mieten Sie eine GPU bei runpod.io oder vast.ai (ab 0,30 EUR pro Stunde fuer eine RTX 4090) oder nutzen Sie Google Colab. Zum Ausprobieren reicht das, fuer dauerhafte Produktion ist ein eigener PC billiger.
Installation Schritt fuer Schritt: Python, Git, AUTOMATIC1111
A1111 (Automatic1111 WebUI) ist das verbreitetste Frontend fuer Stable Diffusion. Es laeuft im Browser und braucht nach der Installation keinerlei Programmierkenntnisse. Alternativen: ComfyUI (maechtiger, aber schwieriger), Forge (ein Fork von A1111, schneller auf neuen GPUs), Fooocus (vereinfacht). Wir starten mit A1111, spaeter entscheiden Sie selbst, was passt.
Schritt 1. Python 3.10.6 installieren
Genau 3.10.6, nicht 3.11 und nicht 3.12. A1111 ist zickig bei neueren Versionen.
- Laden Sie python-3.10.6-amd64.exe von python.org/downloads/release/python-3106
- Bei der Installation unbedingt Haken setzen bei "Add Python to PATH" unten im ersten Fenster
- Install Now klicken
- Pruefen in der Konsole:
python --versionmuss 3.10.6 anzeigen
Wenn Sie schon Python 3.11 oder 3.12 haben, deinstallieren Sie es nicht. Installieren Sie 3.10.6 daneben und legen Sie den Pfad ueber die Umgebungsvariable fest, oder rufen Sie es ueber py -3.10 auf.
Schritt 2. Git installieren
Git brauchen Sie, um das A1111-Repository zu klonen und es spaeter mit einem Befehl zu aktualisieren.
- Installer herunterladen von git-scm.com/download/win
- Mit den Standardhaken installieren
- Pruefen mit
git --versionin der Konsole
Schritt 3. A1111 klonen
Legen Sie einen Ordner fuer neuronale Netze an, etwa D:\AI\ oder C:\StableDiffusion\. Der Pfad darf keine Leerzeichen und keine nicht-lateinischen Zeichen enthalten.
Oeffnen Sie die Konsole in diesem Ordner (Rechtsklick im Explorer, "Im Terminal oeffnen", oder Shift plus Rechtsklick, "Eingabeaufforderung hier oeffnen"). Tippen Sie:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
Es wird der Ordner stable-diffusion-webui heruntergeladen, rund 50 MB. Das ist die Oberflaeche, noch ohne Modelle.
Schritt 4. Erster Start
Gehen Sie in den Ordner stable-diffusion-webui, suchen Sie die Datei webui-user.bat und doppelklicken Sie. Ein schwarzes Fenster oeffnet sich, die Abhaengigkeiten laden: torch, xformers, gradio und andere. Insgesamt fallen 4 bis 6 GB an, beim ersten Start 10 bis 30 Minuten Wartezeit.
Sobald die Zeile Running on local URL: http://127.0.0.1:7860 erscheint, oeffnen Sie diese Adresse im Browser. Vor Ihnen liegt die A1111-Oberflaeche.
Wenn ein CUDA-, Torch- oder Speicherfehler kommt, lesen Sie den Abschnitt zu Fehlern weiter unten.
Kostenlose Modelle fuer Foto und Produkt
Das Basismodell Stable Diffusion 1.5 kann alles ein bisschen, aber nichts richtig. Fuer kommerzielle Fotoarbeit brauchen Sie fine-tuned Modelle aus der Community. Heruntergeladen wird auf civitai.com (kostenlose Registrierung). Dateien kommen nach stable-diffusion-webui/models/Stable-diffusion/.
Top-Modelle fuer Produkt und Retusche 2026
| Modell | Basis | Groesse | Wofuer |
|---|---|---|---|
| Realistic Vision V6.0 B1 | SD 1.5 | 2 GB | Realistische Menschen, Haut, Portraits |
| Juggernaut XL v11 | SDXL | 6,5 GB | Universeller Realismus, Produkt, Mode |
| epiCRealism XL Last Hope | SDXL | 6,5 GB | Fotorealismus, Produktfoto |
| RealVisXL V5.0 | SDXL | 6,5 GB | Detaillierte Texturen, Metall, Glas |
| Flux.1 dev | Flux | 23 GB | Top-Qualitaet, braucht 16 GB+ VRAM |
| DreamShaper XL Turbo | SDXL | 6,5 GB | Schnelle Generierung in 4 bis 8 Schritten |
Fuer Schmuck und Uhren nehmen Sie Juggernaut XL oder RealVisXL, die malen metallische Oberflaechen und Reflexe sauber. Fuer Bekleidung und Stoffe epiCRealism XL. Fuer Gesichter und Models im Bild beginnen Sie mit Realistic Vision V6, danach steigen Sie auf SDXL um.
Inpainting-Versionen: einen Teil des Bildes ueberarbeiten
Inpainting ist der Modus, in dem Sie einen Teil des Bildes ueberpinseln und dem Modell sagen, was dort stattdessen sein soll. In der Retusche unverzichtbar: Etikett aus Kleidung entfernen, Hintergrund tauschen, Schatten unter ein Objekt malen.
Laden Sie die Inpaint-Varianten der gleichen Modelle:
- Realistic Vision V6.0 B1 Inpainting
- Juggernaut XL Inpainting
- epiCRealism Inpainting
In denselben Ordner models/Stable-diffusion legen. In A1111 zu img2img dann Inpaint wechseln, den Inpainting-Checkpoint waehlen, Maske ueber die Problemstelle malen, Prompt schreiben. Ein echtes Werkzeug, das 80 Prozent der Photoshop-Generative-Fill-Aufgaben uebernimmt, kostenlos und ohne Adobe-Abo.
VAE: Saettigung und Kontrast
VAE (Variational Autoencoder) ist eine kleine Datei von 300 bis 800 MB, die die finale Farbverarbeitung uebernimmt. Ohne passenden VAE wirken die Bilder blass und grau. Laden Sie:
- vae-ft-mse-840000-ema-pruned fuer SD 1.5
- sdxl_vae fuer SDXL
Ablage in models/VAE, Auswahl unter Settings, Stable Diffusion, SD VAE.
ControlNet: Kontrolle ueber die Komposition
Ein nackter Prompt liefert zufaellige Ergebnisse. Heute generieren Sie einen schoenen Ring in der Mitte, morgen rutscht derselbe Ring in eine Ecke und kippt. ControlNet loest das.
ControlNet ist eine Sammlung von Modellen, die Stable Diffusion einen zusaetzlichen Eingang verpassen: eine Skizze, eine Tiefenkarte, eine menschliche Pose, Objektkonturen, Oberflaechennormalen. Sie geben dem Netz eine Referenz, und es zeichnet streng entlang dieser Vorlage.
Die wirklich brauchbaren Praeprozessoren
- Canny: zieht Konturen heraus. Praktisch, um ein Objekt in einem anderen Stil neu zu malen und die Form zu bewahren
- Depth: Tiefenkarte. Erhaelt die 3D-Struktur der Szene beim Materialwechsel
- OpenPose: menschliches Skelett. Uebernimmt die Pose des Models von der Referenz exakt
- Lineart: saubere Linien fuer Illustration und Concept Art
- IP-Adapter: uebertraegt den Stil eines Referenzbildes als Ganzes
- Tile: Upscale mit Detailrekonstruktion
Fuer Produktarbeit brauchen Sie hauptsaechlich Canny und Depth. Sie fotografieren ein Schmuckstueck auf grauem Hintergrund, schicken es durch Canny, generieren das gleiche Stueck auf Marmor mit Blueten drumherum. Die Form bleibt stehen.
ControlNet installieren
- In A1111 zu Extensions, Install from URL
https://github.com/Mikubill/sd-webui-controlneteinfuegen- Install klicken, A1111 neu starten
- ControlNet-Modelle laden von huggingface.co/lllyasviel/sd_control_collection (fuer SDXL) oder /lllyasviel/ControlNet-v1-1 (fuer SD 1.5)
- Ablage in
extensions/sd-webui-controlnet/models/
Nach dem Neustart erscheint unter dem txt2img-Fenster ein eingeklapptes ControlNet-Panel. Referenz dorthin laden, Typ waehlen, generieren.
Typische Fehler beim ersten Start
CUDA out of memory
Der haeufigste Fehler. VRAM ist alle. Loesungen nach Wirkung sortiert:
- Aufloesung reduzieren. 1024x1024 passt nicht in 6 GB, stellen Sie 512x768 ein
- In webui-user.bat die Flags eintragen:
set COMMANDLINE_ARGS=--xformers --medvram. Fuer ganz kleine Karten--lowvram - Chrome, Photoshop, Lightroom schliessen. Sie fressen VRAM im Hintergrund
- Batch-Size auf 1 senken
- SD 1.5 statt SDXL nutzen, wenn die Karte weniger als 8 GB hat
Schwarzes Ausgabebild
Bedeutet meistens, dass der VAE nicht geladen wurde oder mit dem Modell nicht kompatibel ist. Pruefen Sie, ob der zur Modellversion passende VAE gewaehlt ist (SD 1.5 VAE fuer 1.5er Modelle, SDXL VAE fuer SDXL). Falls das nicht hilft, das Flag --no-half-vae in COMMANDLINE_ARGS ergaenzen.
Eine Stunde fuer ein Bild
- Pruefen Sie, ob die GPU benutzt wird, nicht die CPU. Beim Start sollte in der Konsole "device: cuda" stehen, nicht "device: cpu". Steht cpu, dann torch mit CUDA-Unterstuetzung neu installieren
- xformers installieren:
--xformerszu COMMANDLINE_ARGS hinzufuegen - Unnoetige Erweiterungen entfernen, sie laden bei jedem Start
- Aktuellen Nvidia-Treiber sicherstellen (ueber GeForce Experience)
"Torch is not able to use GPU"
Vermutlich wurde die integrierte Intel- oder AMD-Grafik gewaehlt, oder torch ohne CUDA installiert. In webui-user.bat eintragen:
set COMMANDLINE_ARGS=--reinstall-torch
Einmal starten, dann den Schalter wieder herausnehmen.
Erweiterungen zerschiessen die Oberflaeche
Nach Installation einer neuen Erweiterung oeffnet die Oberflaeche nicht mehr. Heilung: den Ordner der Erweiterung in extensions/ loeschen oder mit --disable-all-extensions starten.
Kostenlos vs Magnific, Topaz, Firefly: nuechterner Vergleich
Lokales Stable Diffusion ist keine Wunderwaffe. Wo es kostenpflichtige Dienste real schlaegt und wo es verliert.
Wo lokales Stable Diffusion vorne ist
- Volumen. 500 Hintergrundvarianten an einem Abend, niemand zaehlt Token
- Datenschutz. Kundenkarten verlassen den Rechner nicht
- Anpassung. LoRA auf das eigene Produkt, ControlNet, Inpainting bis aufs Pixel
- Endkosten. Nach Amortisation der Hardware null pro Bild
Wo Bezahldienste vorne sind
- Magnific und Topaz Gigapixel 8 schlagen lokale Upscaler bei Detailrekonstruktion noch immer (4x-UltraSharp und SUPIR lokal kommen heran, aber nicht ueberall)
- Firefly ist in Photoshop integriert und funktioniert ohne Installation
- Midjourney v7 liefert ein schoenes Bild aus einer einzelnen Promptzeile, lokales SD verlangt das richtige Modell und passende Parameter
- DALL-E 3 versteht komplexe Textprompts auf Deutsch deutlich besser
Arbeitsschema fuer einen kommerziellen Retuscheur 2026: Hauptfluss auf lokalem Stable Diffusion (Hintergruende, Inpaint, Varianten), finales Upscale und Schaerfung in Magnific oder Topaz, Retusche in Photoshop. Midjourney- und Firefly-Abos werden bei diesem Setup ueberfluessig.
Wie es weitergeht
Wenn A1111 installiert ist, drei oder vier Modelle heruntergeladen sind und die ersten hundert Bilder generiert wurden, kommen tiefere Fragen:
- Wie trainiere ich eine LoRA auf mein Produkt, damit das Modell genau meinen Ohrring kennt
- Wie kombiniere ich mehrere Referenzen in ControlNet gleichzeitig
- Wie baue ich eine Pipeline in ComfyUI, die 200 Produktkarten ueber Nacht abarbeitet
- Wie funktioniert Regional Prompting (unterschiedliche Prompts fuer verschiedene Bildbereiche)
- Wie nutze ich SDXL Refiner und Hi-Res Fix fuer Premium-Qualitaet
- Welche LoRAs funktionieren wirklich fuer Schmuck und wie kombiniere ich sie
Diese Themen sind ueber Reddit, Civitai und Discord-Server verstreut, auf Deutsch gibt es kaum etwas. Ein System aus Bruchstuecken zusammenzubauen ist moeglich, kostet aber Monate.
Bereit, von der Installation zur kommerziellen Arbeit zu wechseln
Im Studio gdefoto fotografieren und retuschieren wir seit drei Jahren Produktaufnahmen fuer Marktplaetze und haben dabei eine konkrete Stable-Diffusion-Praxis in der Produktion entwickelt. Der Kurs AI PRO behandelt genau den Arbeitskreis, der oben beschrieben ist: A1111 von Null, ControlNet fuer Schmuck, Training eigener LoRAs auf Ihren Produkten, Inpaint-Szenarien fuer Marktplaetze, Upscale und Finish. Alle Lektionen laufen an konkreten Faellen: Ringe, Ohrringe, Ketten, echte Shootings.
Wenn Sie bis hierher gelesen haben und merken, dass Sie das nicht als Hobby, sondern als bezahlte Retuschearbeit mit AI machen wollen, schauen Sie sich das Kursprogramm auf /lk/ai-pro/buy/ an. Dort finden Sie den vollstaendigen Plan, Beispiele von Absolventenarbeiten und das Lernformat. Die Plaetze pro Gruppe sind begrenzt, damit wir jedem Teilnehmer Feedback zu seinen Arbeiten geben koennen.