ControlNet für Produktfotografie 2026: Welches Modell wann einsetzen


gdefoto article

ControlNet für Produktfotografie 2026: Welches Modell wann einsetzen

Wer schon einmal versucht hat, mit reinem Stable Diffusion einen Hintergrund neu zu generieren oder das Licht für ein Produktbild zu ändern, kennt den Schmerz. Du nimmst einen Parfümflakon mit markant

Intro

Wer schon einmal versucht hat, mit reinem Stable Diffusion einen Hintergrund neu zu generieren oder das Licht für ein Produktbild zu ändern, kennt den Schmerz. Du nimmst einen Parfümflakon mit markanter Kante, jagst ihn durch img2img, und das Modell baut die Geometrie auf eigene Faust um. Die Kante ist verlaufen, das Logo wurde zur Hieroglyphe, der Deckel sitzt etwas höher. Bei einem Porträt lassen sich solche Freiheiten verzeihen. Für einen Marketplace-Katalog, in dem der Kunde das Produkt mit einem echten Herstellerfoto vergleicht, ist das ein Mangel.

Genau dieses Problem löst ControlNet. Es teilt der Diffusion mit, welche Struktur unverändert bleiben muss und wo improvisiert werden darf. In der Produktfotografie ist das kein einzelner universeller Präprozessor, sondern ein Zoo aus rund einem Dutzend Typen, jeder mit seiner eigenen Stärke. Canny ist ideal für Schmuck mit scharfen Facetten, Depth rettet skulpturale Formen, Tile holt Texturen beim Upscale wieder hervor, IPAdapter hält den Stil des gesamten Katalogs einheitlich. Am Anfang verliert man leicht den Überblick, und die meisten Retuscheure bleiben entweder beim einzelnen Canny mit Standardgewicht hängen, oder sie schalten gleich vier Blöcke zu und holen sich am Ausgang Brei.

In diesem Beitrag sortieren wir, welches ControlNet 2026 für welche Aufgabe taugt, welche Parameter sich wirklich lohnen, wie man zwei Präprozessoren gleichzeitig kombiniert und wie viel VRAM das alles verschlingt. Ohne Füllstoff, mit konkreten Zahlen für Schmuck, Uhren, Verpackung, Kosmetik und Elektronik.

Was ControlNet ist und wozu es in der Produktfotografie dient

ControlNet ist ein neuronaler Aufsatz, der parallel zum eigentlichen Diffusionsmodell läuft und bestimmte Merkmale des Ausgangsbildes festhält. Technisch erhält er eine Bedingungskarte (Kontur, Tiefe, Normale, Farbe) als Eingang und mischt sie in jedem Denoising-Schritt in den latenten Raum von SD ein. Im Ergebnis kann das Modell nicht mehr von der vorgegebenen Geometrie abweichen, selbst wenn der Prompt etwas anderes andeutet.

Für Porträtgenerierung lässt sich ohne ControlNet leben. Das Gesicht des Modells fällt ohnehin anatomisch korrekt aus. In der Produktfotografie ist alles anders. Das Objekt ist einzigartig, die Form lässt sich nicht verallgemeinern, jede Abweichung vom Referenzbild fällt auf. Ohne ControlNet macht das Netz aus deinem Ohrring etwas, das einem Ohrring ähnelt. Mit ControlNet bekommst du denselben Ohrring, aber in neuer Umgebung, mit neuem Licht, mit neuem Hintergrund.

Die Kernidee lautet: ControlNet ist ein Werkzeug zur Beibehaltung, nicht zur Generierung. Für Stil, Material und Atmosphäre ist nach wie vor der Prompt zuständig. ControlNet sorgt nur dafür, dass Geometrie und Proportionen wiedererkennbar bleiben.

ControlNet in Automatic1111 in 5 Minuten installieren

In A1111 (gültig für Branch 1.10 und neuer, geprüft an frischen Builds von 2026) erfolgt die Installation über den Reiter Extensions. Du gehst zu Available, klickst Load from, suchst sd-webui-controlnet von Mikubill, installierst. Dann startest du das Interface neu. Unter dem Prompt erscheint ein ControlNet-Reiter.

Die Modelle kommen nicht mit der Erweiterung, die musst du separat ziehen. Für SD 1.5 liegt das Basisset bei HuggingFace im Repository lllyasviel/ControlNet-v1-1, die Dateien legst du in models/ControlNet/. Für SDXL nimmst du Versionen von lllyasviel/sd_control_collection oder xinsir, die sind schwerer (rund 2,5 GB je Stück), liefern aber eine Qualität, die SD 1.5 in der Produktfotografie nicht erreicht.

Minimalpaket für kommerzielle Arbeit: control_v11p_sd15_canny, control_v11f1p_sd15_depth, control_v11p_sd15_lineart, control_v11p_sd15_normalbae, control_v11f1e_sd15_tile, ip-adapter_sd15, reference-only (kein Modell, sondern ein eingebauter Präprozessor).

In den Einstellungen der Erweiterung aktivierst du Allow other script to control this extension und setzt Multi-ControlNet auf 3 Einheiten. Das reicht für alle Produktaufgaben.

Canny: das Arbeitspferd für Schmuck und Verpackung

Canny erzeugt mit dem Canny-Edge-Detektor eine Karte. Heraus kommt ein Schwarz-Weiß-Bild mit dünnen Linien dort, wo die Quelle scharfe Helligkeitsübergänge hat. Genau diese Linien hält das Modell danach fest.

Wichtig für die Produktarbeit: Canny ignoriert weiche Tonübergänge und arbeitet ausschließlich mit harten Kanten. Das ist ideal für:

  • Schmuck mit vielen Facetten (Brillanten, mehrkantige Anhänger)
  • Uhren (Zifferblatt mit Zahlen und Zeigern, Lünettenskala)
  • Verpackung mit Drucktext und Logos
  • Elektronik mit sichtbaren Gehäusenähten und Tasten

Parameter, die wirklich anzufassen lohnen:

| Parameter | Standard | Für Schmuck | Für Verpackung |

|---|---|---|---|

| Control Weight | 1.0 | 0.85 | 1.1 |

| Starting Control Step | 0 | 0 | 0 |

| Ending Control Step | 1.0 | 0.85 | 1.0 |

| Low Threshold | 100 | 50 | 100 |

| High Threshold | 200 | 150 | 200 |

Niedrige Schwellen (50/150) fangen feinere Facetten ein, was für Brillanten entscheidend ist. Hohe (150/250) entfernen Rauschen auf glatten Verpackungsflächen. Setzt du Ending Step auf 0.85, generiert das Modell die letzten Schritte ohne starre Beibehaltung, und die Glanzlichter werden lebendig statt flach. Das ist ein zuverlässiger Kniff für alle Metalle.

Typischer Fehler: Weight auf 1.5 setzen in der Hoffnung, die Geometrie werde noch genauer. Tatsächlich beginnt das Modell oberhalb von 1.2, den Prompt zu ignorieren, und liefert fast das Ausgangsbild zurück, ohne neues Licht und neuen Hintergrund.

Depth: 3D-Form für skulpturale Objekte

Depth liefert eine Tiefenkarte, in der nahe Partien hell, ferne dunkel sind. Das Modell hält die räumliche Form, lässt aber Spielraum bei Oberfläche und Material.

Wann Depth statt Canny zu nehmen ist:

  • Flaschen, Parfümflakons (sanfte Kurven ohne scharfe Kanten)
  • Keramik, Vasen, Figuren
  • Taschen und Schuhe (weiche Form, Falten)
  • Möbel und Accessoires
  • Kosmetik in Tuben und Tiegeln

Präprozessoren zur Auswahl: depth_midas (Klassiker, schnell), depth_zoe (genauer bei komplexen Formen), depth_anything_v2 (neuer Standard 2026, am genauesten von allen).

Parameter:

  • Control Weight 0.7-0.9 (Depth mag sanfte Beibehaltung)
  • Ending Step 0.7-0.8 (früher loslassen, damit die Materialtextur sich frei entfalten kann)
  • Preprocessor Resolution 512 für SD 1.5, 768-1024 für SDXL

Der wichtigste Lifehack: Wenn das Objekt im Original zu nah an der Kamera ist, verwechselt midas es mit dem Hintergrund. Schneide das Objekt vor dem Lauf vom Hintergrund frei (in Photoshop oder über rembg) und gib es auf schwarzem Feld ein. Die Tiefenkarte wird sauberer, die Beibehaltung präziser.

Lineart: feine Linien, Gravuren, Muster

Lineart arbeitet wie Canny, liefert aber statt technischer Umrisse weichere, künstlerischere Linien. In der Produktarbeit ist es in drei Szenarien nützlich:

  1. Gravuren auf Metall (Uhren, Zigarettenetuis, Ringe mit Inschriften)
  2. Komplexe Muster auf Textil, Keramik, Tapete
  3. Illustrative Katalogdarstellung, wenn künstlerischer Touch gewünscht ist

Präprozessoren: lineart_realistic (für fotorealistische Arbeit), lineart_anime (nur für stilisierte Kataloge), lineart_coarse (für vereinfachte Muster).

Für Gravuren setzt du Weight 1.0, Ending Step 1.0. Nicht loslassen, sonst werden feine Details ausgelöscht.

Lineart und Canny werden oft verwechselt. Einfache Regel: Canny fängt Grenzen (wo dunkel auf hell trifft), Lineart fängt Linien (wo eine Linie gezogen oder eingeritzt wurde). Für einen Barcode nimmst du Canny. Für eine gravierte Inschrift nimmst du Lineart.

Beispiel fuer Fotoretusche

Normal Map: Relief und Oberflächenstruktur

Normal Map ist eine RGB-Karte, in der jeder Kanal die Richtung der Oberflächennormale an einem Punkt kodiert. Bläuliche Farbe steht für eine zur Kamera weisende Fläche, rötliche und grünliche Töne zeigen Neigung an.

In der Produktarbeit ist Normal Map dort unverzichtbar, wo Textur ohne starre Geometrie zählt:

  • Leder (Taschen, Schuhe, Möbel)
  • Stoffe mit ausgeprägter Struktur (Samt, Wolle, Leinen)
  • Guss, Prägung, Reliefembleme
  • 3D-Logos auf Verpackung

Präprozessoren: normal_bae (Standard), normal_midas (ältere Version, funktioniert manchmal besser auf einfarbigen Oberflächen).

Parameter:

  • Weight 0.6-0.8
  • Ending Step 0.9
  • Preprocessor Resolution mindestens 768

Normal liebt es, wenn im Prompt Materialien erwähnt werden. Generierst du eine Ledertasche und schreibst nur bag, kann das Modell die Textur ignorieren. Schreib grain leather, fine texture, soft matte finish, und Normal holt die Nuancen heraus.

Tile: Upscale mit Detailwiedergewinnung

Tile ist ein besonderes ControlNet, das die Struktur nicht im üblichen Sinn hält, sondern beim Vergrößern fehlende Details neu erzeugt. Funktionsprinzip: Du übergibst ein Bild, zerlegst es in Kacheln, und jede Kachel wird mit dem Tile-Hinweis verarbeitet.

Das ist das Arbeitswerkzeug für das finale Upscale eines Katalogbildes von 1024 auf 4096-8192 Pixel. Ohne Tile vermatscht der Upscale Details oder züchtet Artefakte. Mit Tile entstehen echte Texturen von Holz, Fäden, Metall.

Das Bündel für Produkt-Upscale:

  • Tile-Präprozessor tile_resample, Weight 0.5-0.7
  • Ending Step 1.0
  • Denoising strength 0.4-0.55 (wichtig: nicht höher, sonst läuft das Modell vom Original weg)
  • Skript SD Upscale oder Ultimate SD Upscale
  • Maßstab 2x pro Durchgang, zwei Durchgänge zu 2x sind besser als einer mit 4x

Tile wird oft mit Modellen wie 4x-UltraSharp oder ESRGAN bei der Vorvergrößerung kombiniert, und ControlNet legt anschließend natürliche Details darüber.

IPAdapter: Stilabgleich nach Referenz

IPAdapter überträgt den visuellen Stil von einem Bild auf ein anderes. Nicht die Geometrie, sondern eben den Stil: Farben, Licht, Stimmung, Gesamtlook. Für einen Katalog ist das Gold wert.

Praxisfall: Du hast 200 Marketplace-Produkte an verschiedenen Tagen, bei unterschiedlichem Licht aufgenommen. Über IPAdapter nimmst du ein Referenzbild (korrekt fotografiert, mit Markenhintergrund und Markenlicht) und führst alle anderen an dessen Stil heran. Die Serie sieht am Ausgang stimmig aus, als wäre sie in einem Rutsch entstanden.

IPAdapter-Versionen 2026:

| Version | Wofür | Besonderheit |

|---|---|---|

| ip-adapter_sd15 | SD 1.5 allgemein | Basis, schnell |

| ip-adapter-plus_sd15 | SD 1.5 präzise | Hält Stildetails besser |

| ip-adapter_sdxl | SDXL allgemein | Schwerer, qualitativ besser |

| ip-adapter-plus_sdxl_vit-h | SDXL Premium | Standard für kommerzielle Arbeit |

| ip-adapter_faceid | Porträts | Für Produkt nicht nötig |

Parameter:

  • Control Weight 0.5-0.8 (über 1.0 erschlägt den Prompt)
  • Ending Step 0.7-0.9
  • Type Style only für Stil ohne Geometrie (wichtig)

Kombiniere IPAdapter mit Canny oder Depth: Der erste hält den Katalogstil, der zweite die Form des konkreten Produkts. Du bekommst eine Serie, in der jedes Stück erkennbar ist und die Gesamtdarstellung einheitlich wirkt.

Reference-only: vereinfachte Alternative zu IPAdapter

Reference-only erschien vor IPAdapter und lebt bis heute in der ControlNet-Erweiterung. Der Präprozessor verwendet kein separates Modell, sondern speist Features aus dem Referenzbild direkt in die Self-Attention-Schichten von SD ein.

Wann Reference statt IPAdapter zu nehmen ist:

  • schneller Prototyp, ohne Modell-Download
  • Arbeit auf schwacher Hardware (Reference ist leichter)
  • Referenz und Zielobjekt sind formal sehr ähnlich

Präprozessoren: reference_only, reference_adain, reference_adain+attn. In der Produktarbeit ist reference_only mit Style Fidelity 0.5-0.7 am stabilsten.

Reference verträgt keine starken Prompts. Steht im Prompt viel stilistisches Vokabular, gerät es mit der Referenz in Konflikt. Halte den Prompt kurz, beschreibe nur das Objekt selbst.

Softedge: weiche Konturen für sensible Aufgaben

Softedge liefert weiche, unscharfe Konturen. Eingesetzt wird es dort, wo Canny zu hart und Depth zu wenig strukturell ist.

Praxisszenarien:

  • Stofftiere und Decken
  • Brot, Backwaren, Konditorei (Objekte mit unregelmäßiger organischer Form)
  • Servietten, Stofffalten
  • Blumen, Sträuße

Präprozessoren: softedge_pidinet (kontrastreicher), softedge_hed (weicher), softedge_pidisafe (präziser), softedge_hedsafe (am behutsamsten).

Weight 0.7-0.9, Ending Step 0.85. Je weicher das Objekt, desto niedriger das Weight.

Verbindungen zweier ControlNets gleichzeitig

Echte kommerzielle Produktarbeit nutzt fast immer zwei ControlNet-Einheiten. Die eine hält die Struktur, die zweite den Stil oder eine zusätzliche Dimension.

Canny plus Depth. Basisbündel für Schmuck und Verpackung. Canny hält Facetten und Text, Depth fügt das Verständnis für Volumen hinzu. Gewichte: Canny 0.9 plus Depth 0.5. Ergebnis: Proportionen und Inschriften wandern nicht, und Glanzlichter sowie Schatten wirken realistisch.

Canny plus IPAdapter. Für Kataloge mit einheitlichem Stil. Canny hält die Form des konkreten Produkts, IPAdapter zieht den Gesamtlook nach. Gewichte: Canny 1.0 plus IPAdapter 0.6. Du nimmst ein Referenzbild des Katalogs und replizierst seinen Stil auf alle Produkte.

Lineart plus Normal. Für Details mit Gravuren und Textur. Lineart hält die Gravur, Normal erweckt das umgebende Metall. Gewichte: Lineart 1.0 plus Normal 0.6. Ideal für Uhren im Premiumsegment und Zigarettenetuis.

Depth plus Tile. Für das Upscale komplexer Formen. Depth verhindert, dass die Silhouette in großen Maßstäben zerfällt, Tile flüstert die Details ein. Gewichte: Depth 0.5 plus Tile 0.6.

IPAdapter plus Reference. Doppelter Stiltransfer. Das eine setzt die Farbpalette, das andere die Komposition. Seltene Kombination, funktioniert aber bei komplexen Katalogen mit doppelten Anforderungen. Gewichte: beide auf 0.5.

Drei ControlNets gleichzeitig braucht es so gut wie nie. Auf der dritten Einheit beginnt das Modell, den Prompt zu ignorieren. Wenn es so wirkt, als bräuchte man drei, sind höchstwahrscheinlich die Gewichte der ersten beiden falsch gewählt.

Wie viel VRAM jedes Bündel verbraucht

Berechnungen für SD 1.5 bei 768x768 und SDXL bei 1024x1024. Mit Batchgröße 1, ohne xformers- oder sdp-Optimierungen.

| Bündel | SD 1.5 | SDXL |

|---|---|---|

| Nur SD ohne CN | 4 GB | 8 GB |

| 1 ControlNet (Canny/Depth/etc) | 5,5 GB | 10 GB |

| 2 ControlNet | 7 GB | 12,5 GB |

| 2 CN plus IPAdapter | 7,5 GB | 13,5 GB |

| 2 CN plus Tile (Upscale) | 8 GB | 15 GB |

| 3 ControlNet | 9 GB | 16+ GB |

Mit xformers und dem medvram-Flag lassen sich die Zahlen um 25-35 Prozent kürzen. Auf 8-GB-Karten läuft SD 1.5 mit zwei ControlNets ordentlich, SDXL nur mit einem und zwingend mit medvram. Auf 12 GB läuft SDXL mit zwei CN komfortabel. Auf 16 GB und mehr lassen sich beliebige Bündel ohne Rücksichten zusammenstellen.

2026 ist die Arbeitskonfiguration für kommerzielle Produktfotografie eine Grafikkarte ab 12 GB. Alles darunter erzwingt Kompromisse bei Auflösung oder Anzahl der Einheiten.

Typische Einstellungsfehler

Standardgewichte auf allen Einheiten. Wenn zwei ControlNets auf Weight 1.0 stehen, raufen sie miteinander. Der eine zieht das Tuch, der andere auch. Der Prompt wird ignoriert. Regel: Die Summe der Gewichte aller ControlNets sollte 1.2-1.5 nicht deutlich überschreiten.

Falscher Präprozessor für die Quelle. Du übergibst eine bereits fertige Canny-Karte am Eingang, lässt aber den Präprozessor auf canny. Die Erweiterung versucht, die fertige Karte noch einmal zu verarbeiten, und es kommt Murks heraus. Wenn du eine fertige Karte zur Hand hast, stellst du den Präprozessor auf none.

Präprozessor-Auflösung niedriger als Generierungsauflösung. Generierst du 1024x1024, der Präprozessor steht aber auf 512, arbeitet ControlNet mit einer vergröberten Karte und verliert feine Details. Setze Preprocessor Resolution gleich oder nahe an die längere Seite der Leinwand.

Ending Step ignorieren. 90 Prozent der Retuscheure lassen Ending Step bei 1.0 und wundern sich, warum die Glanzlichter tot wirken. Setz es auf 0.8-0.85, das Modell erledigt die letzten Schritte frei, und die Materialien fangen an zu leben.

Starke Beibehaltung bei schwachem Prompt. ControlNet ist keine Magie. Ist der Prompt in drei Worten beschrieben, wird kein ControlNet-Bündel die Sache für dich schön machen. Die Struktur hält, aber die Qualität von Licht, Material und Atmosphäre hängt vom Prompt ab.

Ein und dieselbe Verbindung für den ganzen Katalog. Eine Uhr und eine Decke macht man nicht mit derselben Einstellung. Für jeden Produkttyp gibt es eine eigene ControlNet-Verbindung. Ein ernstes Studio pflegt eine Preset-Bibliothek mit 10-15 Standardszenarien.

Wie es weitergeht

Mit ControlNet umgehen zu können, ist der erste Schritt zur kommerziellen KI-Arbeit in der Produktfotografie. Danach kommen LoRA, ComfyUI-Pipelines, Inpainting, regionale Prompts. Autodidakten brauchen 8-14 Monate, um all das in einen Arbeitsablauf zu fügen, und die meisten geben auf: Foren sind geschlossen, Videos veralten in 3 Monaten, jeder Fehler kostet Stunden.

Wenn du diesen Weg in 3-4 Monaten mit Struktur, Feedback und echten kommerziellen Aufträgen gehen willst, schau dir den Kurs AI PRO von gdefoto an. Voller Zyklus: von der Installation von SD und ControlNet für Produktarbeit, über LoRA und IPAdapter, bis zur schlüsselfertigen Abgabe eines Marketplace-Katalogs. Die Dozenten sind praktizierende Retuscheure, jede Arbeit wird persönlich besprochen, es gibt einen geschlossenen Absolventenchat und eine ständig aktualisierte Preset-Bibliothek. Details und Anmeldung zur nächsten Kohorte: Jetzt zu AI PRO anmelden

ControlNet ist ein Werkzeug, kein Ziel. Das Ziel ist die kommerzielle Retusche der neuen Generation, bei der eine Serie zehnmal schneller entsteht und besser aussieht als beim klassischen Vorgehen. Dorthin bewegt sich der Markt.