ControlNet per la fotografia di prodotto nel 2026: quale modello usare e quando
ControlNet per la fotografia di prodotto nel 2026: quale modello usare e quando
Se hai mai provato a rigenerare uno sfondo o a cambiare la luce di uno scatto di prodotto con Stable Diffusion puro, conosci il dolore. Prendi un flacone di profumo con uno spigolo distintivo, lo pass
Intro
Se hai mai provato a rigenerare uno sfondo o a cambiare la luce di uno scatto di prodotto con Stable Diffusion puro, conosci il dolore. Prendi un flacone di profumo con uno spigolo distintivo, lo passi attraverso img2img e il modello ricostruisce la geometria a modo suo. Lo spigolo si è deformato, il logo si è trasformato in un geroglifico, il tappo è leggermente più alto. Per un ritratto queste licenze si possono perdonare. Per un catalogo di marketplace, dove il cliente confronta il prodotto con la foto reale del produttore, è un difetto.
ControlNet risolve esattamente questo problema. Dice alla diffusione quale struttura mantenere fissa e dove le è consentito improvvisare. In fotografia di prodotto non è un singolo preprocessore universale ma uno zoo di una decina di tipi, ciascuno con il proprio punto di forza. Canny è ideale per gioielli con sfaccettature nette, Depth salva la situazione su forme scultoree, Tile recupera le texture in fase di upscale, IPAdapter mantiene uno stile unificato per l'intero catalogo. All'inizio è facile perdersi, e la maggior parte dei ritoccatori o si blocca su un solo Canny con peso predefinito, o accende quattro blocchi insieme e si ritrova della poltiglia in uscita.
In questo articolo metteremo in ordine quale ControlNet scegliere per ciascun compito nel 2026, quali parametri vale la pena regolare, come combinare due preprocessori contemporaneamente e quanta VRAM consuma tutto questo. Senza riempitivi, con numeri concreti per gioielli, orologi, packaging, cosmetica ed elettronica.
Che cos'è ControlNet e perché serve nella fotografia di prodotto
ControlNet è una rete neurale aggiuntiva che gira in parallelo al modello di diffusione principale e trattiene determinate caratteristiche dell'immagine sorgente. Tecnicamente riceve in ingresso una mappa di condizione (di contorno, di profondità, normale, di colore) e a ogni passo di denoising la inietta nello spazio latente di SD. Come risultato, il modello non può più allontanarsi dalla geometria assegnata, anche se il prompt suggerisce altro.
Per la generazione di ritratti si può vivere senza ControlNet. Il volto del modello esce comunque anatomicamente corretto. In fotografia di prodotto è tutto diverso. L'oggetto è unico, la forma non si presta alla generalizzazione, ogni scostamento dal riferimento si nota. Senza ControlNet la rete trasformerà il tuo orecchino in qualcosa che assomiglia a un orecchino. Con ControlNet ottieni lo stesso orecchino, ma in un nuovo ambiente, con una nuova luce, con un nuovo sfondo.
L'idea chiave è questa: ControlNet è uno strumento di trattenimento, non di generazione. Il prompt rimane responsabile dello stile, del materiale e dell'atmosfera. ControlNet si occupa solo che geometria e proporzioni restino riconoscibili.
Installare ControlNet in Automatic1111 in 5 minuti
In A1111 (valido per i branch 1.10 e successivi, testato su build fresche del 2026) si installa dalla scheda Extensions. Vai su Available, premi Load from, cerchi sd-webui-controlnet di Mikubill, installi. Riavvii l'interfaccia. Sotto il prompt compare una scheda ControlNet.
I modelli non arrivano con l'estensione, vanno scaricati a parte. Per SD 1.5 il set base sta su HuggingFace nel repository lllyasviel/ControlNet-v1-1, i file vanno in models/ControlNet/. Per SDXL prendi le versioni di lllyasviel/sd_control_collection o xinsir, sono più pesanti (circa 2,5 GB ciascuna), ma danno una qualità irraggiungibile per SD 1.5 sui prodotti.
Pacchetto minimo per lavoro commerciale: control_v11p_sd15_canny, control_v11f1p_sd15_depth, control_v11p_sd15_lineart, control_v11p_sd15_normalbae, control_v11f1e_sd15_tile, ip-adapter_sd15, reference-only (non è un modello ma un preprocessore, integrato).
Nelle impostazioni dell'estensione attiva Allow other script to control this extension e imposta Multi-ControlNet su 3 unità. È sufficiente per tutte le attività di prodotto.
Canny: il cavallo da lavoro di gioielleria e packaging
Canny costruisce una mappa con il rilevatore di bordi Canny. Ne esce un'immagine in bianco e nero con linee sottili dove nell'originale ci sono transizioni nette di luminosità. Il modello poi trattiene proprio quelle linee.
Cosa è importante per il prodotto: Canny ignora le transizioni tonali morbide e lavora solo con bordi netti. È ideale per:
- gioielli con molte sfaccettature (diamanti, ciondoli multi-sfaccettati)
- orologi (quadrante con cifre e lancette, scala della ghiera)
- packaging con testi stampati e loghi
- elettronica con cuciture di scocca e tasti evidenti
Parametri che vale davvero la pena modificare:
| Parametro | Default | Per gioielli | Per packaging |
|---|---|---|---|
| Control Weight | 1.0 | 0.85 | 1.1 |
| Starting Control Step | 0 | 0 | 0 |
| Ending Control Step | 1.0 | 0.85 | 1.0 |
| Low Threshold | 100 | 50 | 100 |
| High Threshold | 200 | 150 | 200 |
Le soglie basse (50/150) catturano più sfaccettature fini, il che è cruciale per i diamanti. Quelle alte (150/250) tolgono rumore sulle superfici piane del packaging. Se metti Ending Step a 0.85, gli ultimi passaggi il modello li genera senza trattenimento rigido, e i riflessi escono vivi, non piatti. È un trucco che funziona su tutti i metalli.
Errore tipico: mettere Weight a 1.5 sperando che la geometria sia ancora più precisa. In realtà sopra 1.2 il modello inizia a ignorare il prompt e restituisce quasi l'immagine sorgente, senza nuova luce e nuovo sfondo.
Depth: forma 3D per oggetti scultorei
Depth produce una mappa di profondità in cui le aree vicine sono chiare e quelle lontane scure. Il modello trattiene la forma volumetrica ma consente di fantasticare su superficie e materiale.
Quando scegliere Depth invece di Canny:
- bottiglie, flaconi di profumo (curve dolci senza spigoli netti)
- ceramica, vasi, statuette
- borse e calzature (forma morbida, pieghe)
- mobili e accessori
- cosmetica in tubetti e vasetti
Preprocessori tra cui scegliere: depth_midas (classico, veloce), depth_zoe (più preciso su forme complesse), depth_anything_v2 (nuovo standard 2026, il migliore per precisione).
Parametri:
- Control Weight 0.7-0.9 (Depth ama un trattenimento morbido)
- Ending Step 0.7-0.8 (rilascia prima, perché la texture del materiale lavori liberamente)
- Preprocessor Resolution 512 per SD 1.5, 768-1024 per SDXL
Il trucco principale: se l'oggetto nella sorgente è troppo vicino alla fotocamera, midas si confonde con lo sfondo. Prima del passaggio, ritaglia l'oggetto dallo sfondo (in Photoshop o tramite rembg) e dallo su campo nero. La mappa di profondità sarà più pulita, il trattenimento più accurato.
Lineart: linee sottili, incisioni, motivi
Lineart funziona come Canny, ma restituisce linee più artistiche e morbide invece di contorni tecnici. Per il prodotto è utile in tre scenari:
- Incisioni su metallo (orologi, portasigarette, anelli con scritte)
- Motivi complessi su tessuti, ceramica, carta da parati
- Presentazione illustrativa del catalogo, quando si cerca un tocco artistico
Preprocessori: lineart_realistic (per lavoro fotorealistico), lineart_anime (solo per cataloghi stilizzati), lineart_coarse (per motivi semplificati).
Per le incisioni imposta Weight 1.0, Ending Step 1.0. Senza rilascio, altrimenti i dettagli fini vengono cancellati.
Lineart e Canny si confondono spesso. Regola semplice: Canny cattura i bordi (dove lo scuro incontra il chiaro), Lineart cattura le linee (dove è stata disegnata o incisa una linea). Per un codice a barre prendi Canny. Per una scritta incisa prendi Lineart.
Normal Map: rilievo e texture della superficie
Normal Map è una mappa RGB in cui ogni canale codifica la direzione della normale della superficie in un punto. Il colore bluastro indica un piano rivolto verso la fotocamera, i toni rossastri e verdastri indicano un'inclinazione.
Sul prodotto Normal Map è insostituibile dove conta la texture senza geometria rigida:
- pelle (borse, calzature, mobili)
- tessuti con texture marcata (velluto, lana, lino)
- fusioni, sbalzi, emblemi a rilievo
- loghi 3D sul packaging
Preprocessori: normal_bae (standard), normal_midas (versione vecchia, a volte funziona meglio su superfici monocromatiche).
Parametri:
- Weight 0.6-0.8
- Ending Step 0.9
- Preprocessor Resolution 768 minimo
Normal apprezza quando nel prompt sono menzionati i materiali. Se generi una borsa di pelle e scrivi semplicemente bag, il modello può ignorare la texture. Scrivi grain leather, fine texture, soft matte finish, e Normal tirerà fuori le sfumature.
Tile: upscale con recupero dei dettagli
Tile è uno speciale ControlNet che non trattiene la struttura nel senso usuale ma consente di rigenerare i dettagli mancanti durante l'ingrandimento. Funziona così: fornisci un'immagine, la spezzi in tile (piastrelle), e ogni tile viene processato con il suggerimento Tile.
È lo strumento di lavoro per l'upscale finale di un'immagine di catalogo da 1024 a 4096-8192 pixel. Senza Tile l'upscale sfoca i dettagli o moltiplica gli artefatti. Con Tile compaiono vere texture di legno, fili, metallo.
Il bundle per l'upscale di prodotto:
- preprocessore Tile tile_resample, Weight 0.5-0.7
- Ending Step 1.0
- Denoising strength 0.4-0.55 (importante: non più alto, altrimenti il modello si allontana dalla sorgente)
- script SD Upscale o Ultimate SD Upscale
- scala 2x per passata, due passate da 2x sono meglio di una da 4x
Tile viene spesso combinato con modelli come 4x-UltraSharp o ESRGAN nella fase di pre-ingrandimento, mentre ControlNet aggiunge poi dettagli naturali sopra.
IPAdapter: coordinamento dello stile per riferimento
IPAdapter trasferisce lo stile visivo da un'immagine a un'altra. Non la geometria, ma proprio lo stile: colori, luce, atmosfera, look generale. Per un catalogo è oro.
Caso reale: hai fotografato 200 prodotti di marketplace in giorni diversi, con luci diverse. Tramite IPAdapter prendi un'immagine di riferimento (scattata correttamente, con lo sfondo e la luce del brand) e porti tutte le altre al suo stile. La serie in uscita appare coerente, come se fosse stata scattata in un'unica sessione.
Versioni di IPAdapter nel 2026:
| Versione | Per cosa | Particolarità |
|---|---|---|
| ip-adapter_sd15 | SD 1.5 generale | Base, veloce |
| ip-adapter-plus_sd15 | SD 1.5 precisa | Mantiene meglio i dettagli dello stile |
| ip-adapter_sdxl | SDXL generale | Più pesante, di qualità superiore |
| ip-adapter-plus_sdxl_vit-h | SDXL premium | Standard per lavoro commerciale |
| ip-adapter_faceid | ritratti | Non serve sul prodotto |
Parametri:
- Control Weight 0.5-0.8 (sopra 1.0 uccide il prompt)
- Ending Step 0.7-0.9
- Type Style only per stile senza geometria (importante)
Combina IPAdapter con Canny o Depth: il primo trattiene lo stile del catalogo, il secondo trattiene la forma del prodotto specifico. Ottieni una serie in cui ogni articolo è riconoscibile e la presentazione complessiva è unificata.
Reference-only: alternativa semplificata a IPAdapter
Reference-only è apparso prima di IPAdapter e vive ancora nell'estensione ControlNet. Il preprocessore non usa un modello separato, ma inietta feature dal riferimento direttamente nei layer di self-attention di SD.
Quando scegliere Reference invece di IPAdapter:
- prototipo rapido, senza scaricare modelli
- lavoro su hardware debole (Reference è più leggero)
- riferimento e oggetto target molto simili per forma
Preprocessori: reference_only, reference_adain, reference_adain+attn. Sul prodotto, il più stabile è reference_only con Style Fidelity 0.5-0.7.
Reference non sopporta prompt forti. Se nel prompt ci sono molte parole stilistiche, entrerà in conflitto con il riferimento. Tieni il prompt breve, descrivi solo l'oggetto.
Softedge: bordi morbidi per attività delicate
Softedge fornisce contorni morbidi e sfumati. Si usa dove Canny è troppo rigido e Depth non abbastanza strutturale.
Scenari reali:
- peluche e plaid
- pane, prodotti da forno, dolci (oggetti con forma organica irregolare)
- tovaglioli, pieghe di tessuto
- fiori e bouquet
Preprocessori: softedge_pidinet (più contrastato), softedge_hed (più morbido), softedge_pidisafe (più preciso), softedge_hedsafe (il più delicato).
Weight 0.7-0.9, Ending Step 0.85. Più l'oggetto è morbido, più basso il Weight.
Connessioni di due ControlNet contemporaneamente
Il lavoro commerciale reale sul prodotto utilizza quasi sempre due unità di ControlNet. Una tiene la struttura, la seconda lo stile o una dimensione aggiuntiva.
Canny più Depth. Combinazione base per gioielli e packaging. Canny trattiene sfaccettature e testo, Depth aggiunge la comprensione del volume. Pesi: Canny 0.9 più Depth 0.5. Risultato: proporzioni e scritte non si spostano e, allo stesso tempo, riflessi e ombre sono realistici.
Canny più IPAdapter. Per cataloghi con uno stile unificato. Canny tiene la forma del prodotto specifico, IPAdapter porta il look generale. Pesi: Canny 1.0 più IPAdapter 0.6. Prendi un'immagine di riferimento del catalogo e ne replichi lo stile su tutti i prodotti.
Lineart più Normal. Per dettagli con incisioni e texture. Lineart trattiene l'incisione, Normal anima il metallo circostante. Pesi: Lineart 1.0 più Normal 0.6. Ideale per orologi di segmento premium e portasigarette.
Depth più Tile. Per l'upscale di forme complesse. Depth impedisce che la silhouette si sgretoli alle grandi scale, Tile suggerisce i dettagli. Pesi: Depth 0.5 più Tile 0.6.
IPAdapter più Reference. Doppio trasferimento di stile. Uno definisce la palette cromatica, l'altro la composizione. Combinazione rara, ma funziona su cataloghi complessi con doppi requisiti. Pesi: entrambi a 0.5.
Tre ControlNet in contemporanea non servono quasi mai. Sulla terza unità il modello inizia a ignorare il prompt. Se sembra che ne servano tre, molto probabilmente sono mal scelti i pesi dei primi due.
Quanta VRAM consuma ogni combinazione
Calcoli per SD 1.5 a risoluzione 768x768 e SDXL a 1024x1024. Con batch 1, senza ottimizzazioni xformers o sdp.
| Combinazione | SD 1.5 | SDXL |
|---|---|---|
| Solo SD senza CN | 4 GB | 8 GB |
| 1 ControlNet (Canny/Depth/etc) | 5,5 GB | 10 GB |
| 2 ControlNet | 7 GB | 12,5 GB |
| 2 CN più IPAdapter | 7,5 GB | 13,5 GB |
| 2 CN più Tile (upscale) | 8 GB | 15 GB |
| 3 ControlNet | 9 GB | 16+ GB |
Con xformers e il flag medvram i numeri si possono tagliare del 25-35 percento. Su schede da 8 GB SD 1.5 gira bene con due ControlNet, SDXL solo con uno e obbligatoriamente con medvram. Su 12 GB SDXL con due CN gira comodo. Su 16 GB e oltre puoi assemblare qualsiasi combinazione senza vincoli.
Nel 2026 la configurazione di lavoro per il prodotto commerciale è una scheda video da 12 GB in su. Tutto ciò che sta sotto impone compromessi su risoluzione o numero di unità.
Errori tipici di configurazione
Pesi di default su tutte le unità. Quando due ControlNet stanno a Weight 1.0, si combattono tra loro. Uno tira la coperta, l'altro pure. Il prompt viene ignorato. Regola: la somma dei pesi di tutti i ControlNet non deve superare di molto 1.2-1.5.
Preprocessore sbagliato per la sorgente. Dai in ingresso una mappa Canny già pronta ma lasci il preprocessore su canny. L'estensione prova a rielaborare la mappa pronta, e ne viene fuori una schifezza. Se hai una mappa pronta in mano, metti il preprocessore su none.
Risoluzione del preprocessore inferiore a quella di generazione. Se generi a 1024x1024 ma il preprocessore sta a 512, ControlNet lavora su una mappa grossolana e perde i dettagli fini. Imposta Preprocessor Resolution uguale o vicino al lato maggiore della tela.
Ignorare Ending Step. Il 90 percento dei ritoccatori lascia Ending Step a 1.0 e si chiede perché i riflessi escano morti. Abbassalo a 0.8-0.85, il modello finirà liberamente gli ultimi passi e i materiali prenderanno vita.
Trattenimento forte con prompt debole. ControlNet non è magia. Se il prompt è descritto in tre parole, nessuna combinazione di ControlNet lo farà bello al posto tuo. La struttura terrà, ma la qualità di luce, materiale e atmosfera dipende dal prompt.
Usare un'unica combinazione su tutto il catalogo. Un orologio e un plaid non si fanno con la stessa configurazione. Per ogni tipo di prodotto c'è la sua combinazione di ControlNet. Uno studio serio mantiene una libreria di preset per 10-15 scenari tipici.
Cosa viene dopo
Padroneggiare ControlNet è il primo passo verso il lavoro commerciale con l'IA nel prodotto. Poi vengono LoRA, pipeline ComfyUI, inpainting, prompt regionali. Assemblare tutto questo in un flusso di lavoro agli autodidatti richiede 8-14 mesi, e la maggior parte molla: i forum sono chiusi, i video si datano in 3 mesi, ogni errore costa ore.
Se vuoi percorrere questa strada in 3-4 mesi con struttura, feedback e attività commerciali reali, guarda il corso AI PRO di gdefoto. Ciclo completo: dall'installazione di SD e ControlNet per il prodotto, passando per LoRA e IPAdapter, fino alla consegna chiavi in mano di un catalogo per marketplace. Gli insegnanti sono ritoccatori in attività, ogni lavoro viene revisionato personalmente, c'è una chat chiusa dei diplomati e una libreria di preset in costante aggiornamento. Dettagli e iscrizione alla prossima coorte: Iscriviti ad AI PRO
ControlNet è uno strumento, non un fine. Il fine è il ritocco commerciale di nuova generazione, in cui una serie si scatta dieci volte più in fretta e appare migliore dell'approccio classico. Il mercato va in quella direzione.