ControlNet pour la photographie de produit en 2026 : quel modèle utiliser et quand


gdefoto article

ControlNet pour la photographie de produit en 2026 : quel modèle utiliser et quand

Si vous avez déjà essayé de régénérer un arrière-plan ou de modifier l'éclairage d'une prise de vue produit avec du Stable Diffusion pur, vous connaissez la douleur. Vous prenez un flacon de

Intro

Si vous avez déjà essayé de régénérer un arrière-plan ou de modifier l'éclairage d'une prise de vue produit avec du Stable Diffusion pur, vous connaissez la douleur. Vous prenez un flacon de parfum avec une arête caractéristique, vous le faites passer par img2img, et le modèle reconstruit la géométrie à sa sauce. L'arête a glissé, le logo s'est mué en hiéroglyphe, le bouchon est un peu plus haut. Pour un portrait, ces libertés peuvent se pardonner. Pour un catalogue de marketplace, où le client compare le produit à une vraie photo du fabricant, c'est un défaut.

ControlNet règle précisément ce problème. Il indique à la diffusion quelle structure conserver intacte et où elle peut improviser. En photographie de produit, ce n'est pas un seul préprocesseur universel mais un zoo d'une dizaine de types, chacun avec son point fort. Canny est idéal pour la joaillerie aux facettes nettes, Depth sauve la mise sur les formes sculpturales, Tile ramène les textures lors de l'upscale, IPAdapter maintient un style unifié sur l'ensemble du catalogue. Il est facile de s'y perdre au démarrage, et la plupart des retoucheurs soit restent coincés sur un seul Canny au poids par défaut, soit activent quatre blocs d'un coup et récoltent de la bouillie en sortie.

Dans ce dossier, nous mettrons de l'ordre dans le choix du ControlNet à utiliser selon la tâche en 2026, les paramètres à régler, la façon de combiner deux préprocesseurs en même temps et la quantité de VRAM que tout cela consomme. Sans remplissage, avec des chiffres concrets pour joaillerie, montres, emballage, cosmétique et électronique.

Ce qu'est ControlNet et pourquoi il sert en photographie de produit

ControlNet est un complément neuronal qui tourne en parallèle du modèle de diffusion principal et retient certaines caractéristiques de l'image source. Techniquement, il reçoit en entrée une carte de conditions (de contours, de profondeur, normale, de couleur) et, à chaque étape de débruitage, injecte cette carte dans l'espace latent de SD. En conséquence, le modèle ne peut plus s'éloigner de la géométrie imposée, même si le prompt suggère autre chose.

Pour la génération de portraits, on peut vivre sans ControlNet. Le visage du modèle sort de toute façon anatomiquement correct. En photographie de produit, tout est différent. L'objet est unique, la forme ne se généralise pas, le moindre écart par rapport à la référence se voit. Sans ControlNet, le réseau transformera votre boucle d'oreille en quelque chose qui ressemble à une boucle d'oreille. Avec ControlNet, vous obtenez la même boucle, mais dans un nouvel environnement, avec une nouvelle lumière, sur un nouvel arrière-plan.

L'idée clé est la suivante : ControlNet est un outil de maintien, pas de génération. Le prompt reste responsable du style, de la matière et de l'atmosphère. ControlNet ne se charge que de garder la géométrie et les proportions reconnaissables.

Installer ControlNet dans Automatic1111 en 5 minutes

Dans A1111 (valable pour les branches 1.10 et plus récentes, vérifié sur des builds frais de 2026), l'installation se fait via l'onglet Extensions. Vous allez dans Available, cliquez sur Load from, cherchez sd-webui-controlnet de Mikubill, installez. Vous redémarrez l'interface. Un onglet ControlNet apparaît sous le prompt.

Les modèles ne sont pas livrés avec l'extension, il faut les télécharger séparément. Pour SD 1.5, le pack de base se trouve sur HuggingFace dans le dépôt lllyasviel/ControlNet-v1-1, les fichiers vont dans models/ControlNet/. Pour SDXL, prenez les versions de lllyasviel/sd_control_collection ou xinsir, elles sont plus lourdes (environ 2,5 Go chacune), mais offrent une qualité hors d'atteinte pour SD 1.5 sur le produit.

Pack minimal pour travail commercial : control_v11p_sd15_canny, control_v11f1p_sd15_depth, control_v11p_sd15_lineart, control_v11p_sd15_normalbae, control_v11f1e_sd15_tile, ip-adapter_sd15, reference-only (ce n'est pas un modèle mais un préprocesseur, intégré).

Dans les réglages de l'extension, activez Allow other script to control this extension et mettez Multi-ControlNet à 3 unités. Cela suffit pour toutes les tâches produit.

Canny : le cheval de bataille de la joaillerie et de l'emballage

Canny construit une carte avec le détecteur de bords Canny. On obtient une image en noir et blanc avec des lignes fines là où, dans la source, les transitions de luminosité sont nettes. Le modèle conserve ensuite exactement ces lignes.

Ce qui compte pour le produit : Canny ignore les transitions tonales douces et ne travaille que sur les bords nets. C'est idéal pour :

  • la joaillerie à nombreuses facettes (diamants, pendentifs à multiples facettes)
  • les montres (cadran avec chiffres et aiguilles, échelle de lunette)
  • l'emballage avec texte imprimé et logos
  • l'électronique avec des coutures de coque et des touches apparentes

Les paramètres qu'il vaut vraiment la peine de modifier :

| Paramètre | Défaut | Pour joaillerie | Pour emballage |

|---|---|---|---|

| Control Weight | 1.0 | 0.85 | 1.1 |

| Starting Control Step | 0 | 0 | 0 |

| Ending Control Step | 1.0 | 0.85 | 1.0 |

| Low Threshold | 100 | 50 | 100 |

| High Threshold | 200 | 150 | 200 |

Les seuils bas (50/150) capturent davantage de facettes fines, ce qui est crucial pour les diamants. Les seuils hauts (150/250) suppriment le bruit sur les surfaces planes des emballages. Si vous placez Ending Step à 0.85, le modèle génère les dernières étapes sans maintien rigide, et les reflets sortent vivants, pas plats. C'est une astuce qui marche pour tous les métaux.

Erreur typique : mettre Weight à 1.5 en espérant que la géométrie sera encore plus exacte. En réalité, au-delà de 1.2, le modèle commence à ignorer le prompt et restitue presque l'image source, sans nouvelle lumière ni nouvel arrière-plan.

Depth : forme 3D pour objets sculpturaux

Depth produit une carte de profondeur où les zones proches sont claires et les lointaines sombres. Le modèle conserve la forme volumétrique mais autorise des fantaisies sur la surface et la matière.

Quand prendre Depth plutôt que Canny :

  • bouteilles, flacons de parfum (courbes douces sans arêtes nettes)
  • céramique, vases, figurines
  • sacs et chaussures (forme souple, plis)
  • meubles et accessoires
  • cosmétique en tubes et pots

Préprocesseurs au choix : depth_midas (le classique, rapide), depth_zoe (plus précis sur les formes complexes), depth_anything_v2 (nouveau standard 2026, le meilleur en précision).

Paramètres :

  • Control Weight 0.7-0.9 (Depth aime un maintien doux)
  • Ending Step 0.7-0.8 (relâchez plus tôt pour que la texture du matériau soit travaillée librement)
  • Preprocessor Resolution 512 pour SD 1.5, 768-1024 pour SDXL

Astuce principale : si l'objet de la source est trop près de la caméra, midas se mélange avec l'arrière-plan. Avant la passe, détourez l'objet (sous Photoshop ou via rembg) et présentez-le sur fond noir. La carte de profondeur sera plus propre, le maintien plus précis.

Lineart : lignes fines, gravures, motifs

Lineart fonctionne comme Canny, mais produit des lignes plus artistiques et douces au lieu de contours techniques. Pour le produit, il est utile dans trois cas :

  1. Gravures sur métal (montres, porte-cigarettes, bagues à inscriptions)
  2. Motifs complexes sur textile, céramique, papier peint
  3. Présentation illustrative du catalogue, quand on cherche un rendu artistique

Préprocesseurs : lineart_realistic (pour le travail photoréaliste), lineart_anime (uniquement pour catalogues stylisés), lineart_coarse (pour motifs simplifiés).

Pour les gravures, mettez Weight 1.0, Ending Step 1.0. Sans relâchement, sinon les détails fins seront effacés.

Lineart et Canny sont souvent confondus. Règle simple : Canny attrape les bordures (là où l'obscur rencontre le clair), Lineart attrape les lignes (là où une ligne a été tracée ou gravée). Pour un code-barres, prenez Canny. Pour une inscription gravée, prenez Lineart.

Exemple de retouche photo

Normal Map : relief et texture de surface

Normal Map est une carte RVB où chaque canal encode la direction de la normale de la surface en un point. La couleur bleutée signale un plan tourné vers la caméra, les tons rougeâtres et verdâtres indiquent une inclinaison.

Sur le produit, Normal Map est irremplaçable là où la texture compte sans géométrie rigide :

  • cuir (sacs, chaussures, meubles)
  • tissus à texture marquée (velours, laine, lin)
  • moulages, repoussages, emblèmes en relief
  • logos 3D sur emballages

Préprocesseurs : normal_bae (standard), normal_midas (ancienne version, parfois meilleure sur des surfaces monochromes).

Paramètres :

  • Weight 0.6-0.8
  • Ending Step 0.9
  • Preprocessor Resolution 768 minimum

Normal apprécie qu'on mentionne les matériaux dans le prompt. Si vous générez un sac en cuir et écrivez simplement bag, le modèle peut ignorer la texture. Écrivez grain leather, fine texture, soft matte finish, et Normal fera ressortir les nuances.

Tile : upscale avec récupération des détails

Tile est un ControlNet particulier qui ne maintient pas la structure au sens habituel mais permet de regénérer les détails manquants lors de l'agrandissement. Principe : vous fournissez une image, vous la découpez en tuiles, et chaque tuile est traitée avec l'indication Tile.

C'est l'outil de travail pour l'upscale final d'une image catalogue de 1024 à 4096-8192 pixels. Sans Tile, l'upscale floute les détails ou multiplie les artefacts. Avec Tile, apparaissent de vraies textures de bois, de fil, de métal.

Le bundle pour l'upscale produit :

  • préprocesseur Tile tile_resample, Weight 0.5-0.7
  • Ending Step 1.0
  • Denoising strength 0.4-0.55 (important : pas plus, sinon le modèle s'éloigne de la source)
  • script SD Upscale ou Ultimate SD Upscale
  • échelle 2x par passe, deux passes à 2x valent mieux qu'une à 4x

Tile est souvent combiné à des modèles comme 4x-UltraSharp ou ESRGAN à l'étape de pré-agrandissement, ControlNet ajoutant ensuite des détails naturels par-dessus.

IPAdapter : accord stylistique par référence

IPAdapter transfère le style visuel d'une image à une autre. Pas la géométrie, mais précisément le style : couleurs, lumière, ambiance, look général. Pour un catalogue, c'est de l'or.

Cas réel : vous avez shooté 200 produits marketplace sur plusieurs jours, avec différentes lumières. Via IPAdapter, vous prenez une image de référence (correctement shootée, avec le fond et la lumière de marque) et alignez toutes les autres sur son style. La série en sortie paraît cohérente, comme si elle avait été shootée d'une traite.

Versions d'IPAdapter en 2026 :

| Version | Pour quoi | Particularité |

|---|---|---|

| ip-adapter_sd15 | SD 1.5 général | Base, rapide |

| ip-adapter-plus_sd15 | SD 1.5 précis | Retient mieux les détails du style |

| ip-adapter_sdxl | SDXL général | Plus lourd, plus qualitatif |

| ip-adapter-plus_sdxl_vit-h | SDXL premium | Standard pour travail commercial |

| ip-adapter_faceid | portraits | Inutile en produit |

Paramètres :

  • Control Weight 0.5-0.8 (au-dessus de 1.0 tue le prompt)
  • Ending Step 0.7-0.9
  • Type Style only pour style sans géométrie (important)

Combinez IPAdapter avec Canny ou Depth : le premier maintient le style du catalogue, le second la forme du produit concret. Vous obtenez une série où chaque article est reconnaissable et où la présentation globale est unifiée.

Reference-only : alternative simplifiée à IPAdapter

Reference-only est apparu avant IPAdapter et vit encore dans l'extension ControlNet. Le préprocesseur n'utilise pas de modèle séparé, mais injecte les features de la référence directement dans les couches de self-attention de SD.

Quand prendre Reference plutôt qu'IPAdapter :

  • prototype rapide, sans téléchargement de modèles
  • travail sur du matériel modeste (Reference est plus léger)
  • la référence et l'objet cible sont très proches en forme

Préprocesseurs : reference_only, reference_adain, reference_adain+attn. Sur le produit, le plus stable est reference_only avec Style Fidelity 0.5-0.7.

Reference n'aime pas les prompts forts. Si le prompt contient beaucoup de mots stylistiques, il entrera en conflit avec la référence. Gardez le prompt court, décrivez uniquement l'objet.

Softedge : bords doux pour les sujets délicats

Softedge fournit des contours doux et flous. Utilisé là où Canny est trop dur et Depth pas assez structurel.

Scénarios réels :

  • peluches et plaids
  • pain, viennoiseries, pâtisseries (objets à forme organique irrégulière)
  • serviettes, plis de tissu
  • fleurs, bouquets

Préprocesseurs : softedge_pidinet (plus contrasté), softedge_hed (plus doux), softedge_pidisafe (plus précis), softedge_hedsafe (le plus délicat).

Weight 0.7-0.9, Ending Step 0.85. Plus l'objet est mou, plus le Weight est bas.

Associations de deux ControlNet en même temps

Le travail commercial réel sur le produit utilise presque toujours deux unités de ControlNet. L'une maintient la structure, la seconde le style ou une dimension supplémentaire.

Canny plus Depth. Combo de base pour la joaillerie et l'emballage. Canny maintient les facettes et le texte, Depth ajoute la compréhension du volume. Poids : Canny 0.9 plus Depth 0.5. Résultat : les proportions et les inscriptions ne dérivent pas, et les reflets ainsi que les ombres restent réalistes.

Canny plus IPAdapter. Pour les catalogues à style unifié. Canny tient la forme du produit concret, IPAdapter apporte le look général. Poids : Canny 1.0 plus IPAdapter 0.6. Vous prenez une image de référence du catalogue et reproduisez son style sur tous les produits.

Lineart plus Normal. Pour les détails à gravures et texture. Lineart maintient la gravure, Normal anime le métal autour. Poids : Lineart 1.0 plus Normal 0.6. Idéal pour les montres de segment premium et les porte-cigarettes.

Depth plus Tile. Pour l'upscale de formes complexes. Depth empêche la silhouette de se désagréger aux grandes échelles, Tile souffle les détails. Poids : Depth 0.5 plus Tile 0.6.

IPAdapter plus Reference. Double transfert de style. L'un fixe la palette chromatique, l'autre la composition. Combo rare, mais qui fonctionne sur les catalogues complexes à double exigence. Poids : tous les deux à 0.5.

Trois ControlNet à la fois sont presque jamais nécessaires. À la troisième unité, le modèle commence à ignorer le prompt. Si on a l'impression qu'il en faut trois, c'est très probablement que les poids des deux premiers sont mal choisis.

Combien de VRAM chaque combo consomme

Calculs pour SD 1.5 en résolution 768x768 et SDXL en 1024x1024. Avec batch 1, sans optimisations xformers ou sdp.

| Combinaison | SD 1.5 | SDXL |

|---|---|---|

| SD seul sans CN | 4 Go | 8 Go |

| 1 ControlNet (Canny/Depth/etc) | 5,5 Go | 10 Go |

| 2 ControlNet | 7 Go | 12,5 Go |

| 2 CN plus IPAdapter | 7,5 Go | 13,5 Go |

| 2 CN plus Tile (upscale) | 8 Go | 15 Go |

| 3 ControlNet | 9 Go | 16+ Go |

Avec xformers et le flag medvram, on peut rogner les chiffres de 25 à 35 pour cent. Sur des cartes 8 Go, SD 1.5 tourne correctement avec deux ControlNet, SDXL seulement avec un et impérativement avec medvram. Sur 12 Go, SDXL avec deux CN tourne confortablement. Sur 16 Go et plus, on peut assembler n'importe quel combo sans précaution.

En 2026, la configuration de travail pour le produit commercial est une carte graphique à partir de 12 Go. Tout ce qui est en dessous impose des compromis sur la résolution ou le nombre d'unités.

Erreurs de réglage typiques

Poids par défaut sur toutes les unités. Quand deux ControlNet sont à Weight 1.0, ils se battent entre eux. L'un tire la couverture, l'autre aussi. Le prompt est ignoré. Règle : la somme des poids de tous les ControlNet ne doit pas dépasser nettement 1.2-1.5.

Mauvais préprocesseur pour la source. Vous fournissez une carte Canny déjà prête en entrée, mais laissez le préprocesseur sur canny. L'extension tente de retraiter la carte finie, et le résultat est mauvais. Si vous avez une carte prête en main, mettez le préprocesseur sur none.

Résolution du préprocesseur inférieure à celle de génération. Si vous générez en 1024x1024 mais que le préprocesseur est sur 512, ControlNet travaille sur une carte grossière et perd les détails fins. Mettez Preprocessor Resolution égal ou proche du plus grand côté du canevas.

Ignorer Ending Step. 90 pour cent des retoucheurs laissent Ending Step à 1.0 et s'étonnent que les reflets soient morts. Descendez-le à 0.8-0.85, le modèle finalisera les dernières étapes librement et les matériaux prendront vie.

Maintien fort sur un prompt faible. ControlNet n'est pas magique. Si le prompt tient en trois mots, aucun combo de ControlNet ne le rendra beau à votre place. La structure tiendra, mais la qualité de la lumière, du matériau et de l'atmosphère dépend du prompt.

Utiliser un même combo sur tout le catalogue. Une montre et un plaid ne se font pas avec le même réglage. À chaque type de produit son combo de ControlNet. Un studio sérieux entretient une bibliothèque de presets pour 10 à 15 scénarios types.

Ce qui vient ensuite

Maîtriser ControlNet est le premier pas vers le travail commercial avec l'IA en produit. Viennent ensuite les LoRA, les pipelines ComfyUI, l'inpainting, les prompts régionaux. Assembler tout cela en flux de travail prend 8 à 14 mois aux autodidactes, et la plupart abandonnent : les forums sont fermés, les vidéos sont obsolètes en 3 mois, chaque erreur coûte des heures.

Si vous voulez parcourir ce chemin en 3 à 4 mois avec une structure, un retour et de vraies missions commerciales, regardez le cours AI PRO de gdefoto. Cycle complet : de l'installation de SD et de ControlNet pour le produit, en passant par LoRA et IPAdapter, jusqu'à la livraison clé en main d'un catalogue marketplace. Les enseignants sont des retoucheurs en exercice, chaque travail est revu en personne, il y a un chat fermé des diplômés et une bibliothèque de presets régulièrement mise à jour. Détails et inscription à la prochaine promotion : Inscrivez-vous à AI PRO

ControlNet est un outil, pas une fin. La fin, c'est la retouche commerciale de nouvelle génération, où une série se shoote dix fois plus vite et rend mieux qu'avec l'approche classique. Le marché s'y dirige.