ControlNet para fotografía de producto en 2026: qué modelo usar y cuándo
ControlNet para fotografía de producto en 2026: qué modelo usar y cuándo
Si alguna vez intentaste regenerar un fondo o cambiar la iluminación de una foto de producto con Stable Diffusion puro, conoces el sufrimiento. Tomas un frasco de perfume con una arista distintiva, lo
Intro
Si alguna vez intentaste regenerar un fondo o cambiar la iluminación de una foto de producto con Stable Diffusion puro, conoces el sufrimiento. Tomas un frasco de perfume con una arista distintiva, lo pasas por img2img, y el modelo reconstruye la geometría a su manera. La arista se ha deformado, el logotipo se convirtió en un jeroglífico, el tapón quedó un poco más alto. Para un retrato esas libertades se pueden perdonar. Para un catálogo de marketplace, donde el cliente compara el producto con una foto real del fabricante, eso es un defecto.
ControlNet resuelve exactamente este problema. Le indica a la difusión qué estructura mantener intacta y dónde se le permite improvisar. En fotografía de producto no es un solo preprocesador universal sino un zoológico de una decena de tipos, cada uno con su propia fortaleza. Canny es ideal para joyería con facetas pronunciadas, Depth salva el día en formas escultóricas, Tile recupera texturas durante el reescalado, IPAdapter mantiene un estilo unificado en todo el catálogo. Es fácil perderse al principio, y la mayoría de los retocadores se atascan con un solo Canny con peso por defecto, o encienden cuatro bloques a la vez y obtienen una papilla en la salida.
En este material vamos a ordenar qué ControlNet tomar para cada tarea en 2026, qué parámetros afinar, cómo combinar dos preprocesadores al mismo tiempo y cuánta VRAM consume todo esto. Sin relleno, con cifras concretas para joyería, relojes, embalaje, cosmética y electrónica.
Qué es ControlNet y para qué sirve en fotografía de producto
ControlNet es una red neuronal complementaria que se ejecuta en paralelo con el modelo principal de difusión y retiene determinadas características de la imagen de origen. Técnicamente recibe a la entrada un mapa de condiciones (de contornos, de profundidad, normal, de color) y en cada paso de denoising inyecta ese mapa en el espacio latente de SD. Como resultado, el modelo ya no puede alejarse de la geometría asignada, incluso si el prompt sugiere otra cosa.
Para generación de retratos se puede vivir sin ControlNet. El rostro del modelo sale anatómicamente correcto de todos modos. En fotografía de producto todo es distinto. El objeto es único, la forma no admite generalización, cualquier desviación del referente se nota. Sin ControlNet la red convertirá tu pendiente en algo que se parece a un pendiente. Con ControlNet obtienes el mismo pendiente, pero en un entorno nuevo, con luz nueva, con un fondo nuevo.
La idea clave es esta: ControlNet es una herramienta de retención, no de generación. El prompt sigue siendo responsable del estilo, el material y la atmósfera. ControlNet se encarga solo de que la geometría y las proporciones sigan siendo reconocibles.
Instalación de ControlNet en Automatic1111 en 5 minutos
En A1111 (vigente para las ramas 1.10 y posteriores, probado en compilaciones frescas de 2026) se instala desde la pestaña Extensions. Vas a Available, presionas Load from, buscas sd-webui-controlnet de Mikubill, instalas. Reinicias la interfaz. Aparece una pestaña ControlNet debajo del prompt.
Los modelos no vienen con la extensión, hay que descargarlos por separado. Para SD 1.5 el conjunto base está en HuggingFace en el repositorio lllyasviel/ControlNet-v1-1, los archivos se colocan en models/ControlNet/. Para SDXL toma las versiones de lllyasviel/sd_control_collection o xinsir, son más pesadas (unos 2.5 GB cada una), pero ofrecen una calidad inalcanzable para SD 1.5 en producto.
Paquete mínimo para trabajo comercial: control_v11p_sd15_canny, control_v11f1p_sd15_depth, control_v11p_sd15_lineart, control_v11p_sd15_normalbae, control_v11f1e_sd15_tile, ip-adapter_sd15, reference-only (no es un modelo, es un preprocesador, viene incorporado).
En los ajustes de la extensión activa Allow other script to control this extension y pon Multi-ControlNet en 3 unidades. Eso alcanza para todas las tareas de producto.
Canny: el caballo de batalla de la joyería y el embalaje
Canny construye un mapa con el detector de bordes Canny. Sale una imagen en blanco y negro con líneas finas allí donde en el original hay transiciones bruscas de brillo. El modelo después retiene precisamente esas líneas.
Lo importante para producto: Canny ignora las transiciones suaves de tono y trabaja solo con bordes nítidos. Eso es ideal para:
- joyería con muchas facetas (diamantes, colgantes multifacetados)
- relojes (esfera con cifras y agujas, escala del bisel)
- embalajes con texto impreso y logotipos
- electrónica con costuras de carcasa y teclas visibles
Parámetros que vale la pena ajustar de verdad:
| Parámetro | Por defecto | Para joyería | Para embalaje |
|---|---|---|---|
| Control Weight | 1.0 | 0.85 | 1.1 |
| Starting Control Step | 0 | 0 | 0 |
| Ending Control Step | 1.0 | 0.85 | 1.0 |
| Low Threshold | 100 | 50 | 100 |
| High Threshold | 200 | 150 | 200 |
Umbrales bajos (50/150) capturan más facetas finas, lo que es crítico para los diamantes. Los altos (150/250) eliminan ruido en superficies planas del embalaje. Si pones Ending Step en 0.85, los últimos pasos el modelo los genera sin retención rígida, y los brillos salen vivos, no planos. Es un truco que funciona en todos los metales.
Error típico: poner Weight en 1.5 con la esperanza de que la geometría salga aún más exacta. En la práctica, por encima de 1.2 el modelo empieza a ignorar el prompt y devuelve casi la imagen original, sin luz ni fondo nuevos.
Depth: forma 3D para objetos escultóricos
Depth entrega un mapa de profundidad donde las zonas cercanas son claras y las lejanas oscuras. El modelo retiene la forma volumétrica pero permite fantasear con la superficie y el material.
Cuándo tomar Depth en lugar de Canny:
- botellas, frascos de perfume (curvas suaves sin aristas pronunciadas)
- cerámica, jarrones, figurillas
- bolsos y calzado (forma blanda, pliegues)
- muebles y accesorios
- cosmética en tubos y tarros
Preprocesadores a elegir: depth_midas (clásico, rápido), depth_zoe (más preciso en formas complejas), depth_anything_v2 (el nuevo estándar de 2026, el mejor en precisión).
Parámetros:
- Control Weight 0.7-0.9 (Depth ama la retención suave)
- Ending Step 0.7-0.8 (suelta antes para que la textura del material se trabaje libremente)
- Preprocessor Resolution 512 para SD 1.5, 768-1024 para SDXL
El gran truco: si el objeto en la fuente está demasiado cerca de la cámara, midas se confunde con el fondo. Antes de la pasada, recorta el objeto del fondo (en Photoshop o con rembg) y entrégalo sobre campo negro. El mapa de profundidad saldrá más limpio, la retención más precisa.
Lineart: líneas finas, grabados, patrones
Lineart trabaja como Canny, pero entrega líneas más artísticas y suaves en lugar de contornos técnicos. Para producto resulta útil en tres escenarios:
- Grabados en metal (relojes, pitilleras, anillos con inscripciones)
- Patrones complejos en textil, cerámica, papel tapiz
- Presentación ilustrativa del catálogo cuando se busca un toque artístico
Preprocesadores: lineart_realistic (para trabajo fotorrealista), lineart_anime (solo para catálogos estilizados), lineart_coarse (para patrones simplificados).
Para grabados pon Weight 1.0, Ending Step 1.0. Sin soltar, de lo contrario los detalles finos se borrarán.
A menudo se confunden Lineart y Canny. Regla simple: Canny captura bordes (donde lo oscuro se encuentra con lo claro), Lineart captura líneas (donde se dibujó o se rasgó una línea). Para un código de barras toma Canny. Para una inscripción grabada toma Lineart.
Normal Map: relieve y textura de superficie
Normal Map es un mapa RGB donde cada canal codifica la dirección de la normal de la superficie en un punto. El color azulado significa un plano que mira a la cámara, los tonos rojizos y verdosos indican inclinación.
En producto Normal Map es insustituible donde importa la textura sin una geometría rígida:
- cuero (bolsos, calzado, muebles)
- telas con textura marcada (terciopelo, lana, lino)
- fundición, repujado, emblemas en relieve
- logotipos 3D en embalaje
Preprocesadores: normal_bae (estándar), normal_midas (versión antigua, a veces funciona mejor en superficies monocromas).
Parámetros:
- Weight 0.6-0.8
- Ending Step 0.9
- Preprocessor Resolution 768 como mínimo
Normal disfruta cuando en el prompt se mencionan los materiales. Si generas un bolso de cuero y escribes simplemente bag, el modelo puede ignorar la textura. Escribe grain leather, fine texture, soft matte finish, y Normal sacará los matices.
Tile: reescalado con recuperación de detalles
Tile es un ControlNet especial que no retiene la estructura en el sentido habitual, sino que permite regenerar detalles faltantes al ampliar. Funciona así: entregas una imagen, la divides en mosaicos, y cada mosaico se procesa con una pista Tile.
Es la herramienta de trabajo para el reescalado final de una imagen de catálogo de 1024 a 4096-8192 píxeles. Sin Tile, el reescalado difumina los detalles o multiplica los artefactos. Con Tile aparecen texturas reales de madera, hilos, metal.
El paquete para reescalado de producto:
- Preprocesador Tile tile_resample, Weight 0.5-0.7
- Ending Step 1.0
- Denoising strength 0.4-0.55 (importante: no más alto, o el modelo se alejará del original)
- Script SD Upscale o Ultimate SD Upscale
- Escala 2x por pasada, dos pasadas de 2x son mejor que una de 4x
Tile a menudo se combina con modelos 4x-UltraSharp o ESRGAN en la fase de ampliación previa, y ControlNet luego añade los detalles naturales encima.
IPAdapter: coordinación de estilo por referencia
IPAdapter transfiere el estilo visual de una imagen a otra. No la geometría, sino justamente el estilo: colores, luz, ambiente, look general. Para un catálogo eso es oro.
Caso real: filmaste 200 productos de marketplace en días distintos, con luces distintas. A través de IPAdapter tomas una imagen de referencia (correctamente filmada, con fondo y luz de marca) y llevas todas las demás a su estilo. La serie de salida luce coherente, como si se hubiera filmado en una sola sesión.
Versiones de IPAdapter en 2026:
| Versión | Para qué | Particularidad |
|---|---|---|
| ip-adapter_sd15 | SD 1.5 general | Base, rápida |
| ip-adapter-plus_sd15 | SD 1.5 precisa | Retiene mejor los detalles del estilo |
| ip-adapter_sdxl | SDXL general | Más pesada, mejor calidad |
| ip-adapter-plus_sdxl_vit-h | SDXL premium | Estándar para trabajo comercial |
| ip-adapter_faceid | retratos | No se necesita en producto |
Parámetros:
- Control Weight 0.5-0.8 (por encima de 1.0 mata el prompt)
- Ending Step 0.7-0.9
- Type Style only para estilo sin geometría (importante)
Combina IPAdapter con Canny o Depth: el primero retiene el estilo del catálogo, el segundo retiene la forma del producto concreto. Obtienes una serie en la que cada artículo es reconocible y la presentación general es unificada.
Reference-only: alternativa simplificada a IPAdapter
Reference-only apareció antes que IPAdapter y todavía vive en la extensión ControlNet. El preprocesador no usa un modelo aparte, sino que inyecta features del referente directamente en las capas de self-attention de SD.
Cuándo tomar Reference en lugar de IPAdapter:
- prototipo rápido, sin descargar modelos
- trabajo en hardware débil (Reference es más ligero)
- el referente y el objeto destino son muy parecidos en forma
Preprocesadores: reference_only, reference_adain, reference_adain+attn. En producto, el más estable es reference_only con Style Fidelity 0.5-0.7.
Reference no soporta prompts fuertes. Si el prompt contiene muchas palabras estilísticas, entrará en conflicto con el referente. Mantén el prompt corto, describe solo el objeto.
Softedge: bordes suaves para tareas delicadas
Softedge entrega contornos suaves y difuminados. Se usa allí donde Canny es demasiado rígido y Depth no es lo bastante estructural.
Escenarios reales:
- peluches y mantas
- pan, bollería, repostería (objeto con forma orgánica irregular)
- servilletas, pliegues de tela
- flores y ramos
Preprocesadores: softedge_pidinet (más contrastado), softedge_hed (más suave), softedge_pidisafe (más preciso), softedge_hedsafe (el más delicado).
Weight 0.7-0.9, Ending Step 0.85. Cuanto más blando es el objeto, menor el Weight.
Combinaciones de dos ControlNets al mismo tiempo
El trabajo comercial real con producto usa casi siempre dos unidades de ControlNet. Una retiene la estructura, la segunda el estilo o una dimensión adicional.
Canny más Depth. Combinación base para joyería y embalaje. Canny retiene las facetas y el texto, Depth añade comprensión del volumen. Pesos: Canny 0.9 más Depth 0.5. Resultado: las proporciones y las inscripciones no se deforman, y al mismo tiempo los brillos y las sombras son realistas.
Canny más IPAdapter. Para catálogos con estilo unificado. Canny retiene la forma del producto concreto, IPAdapter aporta el look general. Pesos: Canny 1.0 más IPAdapter 0.6. Tomas una imagen de referencia del catálogo y replicas su estilo en todos los productos.
Lineart más Normal. Para detalles con grabados y textura. Lineart retiene el grabado, Normal da vida al metal alrededor. Pesos: Lineart 1.0 más Normal 0.6. Ideal para relojes de segmento premium y pitilleras.
Depth más Tile. Para reescalar formas complejas. Depth no deja que la silueta se desmorone en escalas grandes, Tile sugiere los detalles. Pesos: Depth 0.5 más Tile 0.6.
IPAdapter más Reference. Doble transferencia de estilo. Uno fija la paleta de colores, el segundo la composición. Combinación rara, pero funciona en catálogos complejos con requisitos dobles. Pesos: ambos en 0.5.
Tres ControlNets a la vez casi nunca se necesitan. En la tercera unidad el modelo empieza a ignorar el prompt. Si parece que hacen falta tres, lo más probable es que estén mal escogidos los pesos de los dos primeros.
Cuánta VRAM consume cada combinación
Cálculos para SD 1.5 a resolución 768x768 y SDXL a 1024x1024. Con batch 1, sin optimizaciones xformers o sdp.
| Combinación | SD 1.5 | SDXL |
|---|---|---|
| Solo SD sin CN | 4 GB | 8 GB |
| 1 ControlNet (Canny/Depth/etc) | 5.5 GB | 10 GB |
| 2 ControlNet | 7 GB | 12.5 GB |
| 2 CN más IPAdapter | 7.5 GB | 13.5 GB |
| 2 CN más Tile (reescalado) | 8 GB | 15 GB |
| 3 ControlNet | 9 GB | 16+ GB |
Con xformers y el flag medvram las cifras se pueden recortar un 25-35 por ciento. En tarjetas de 8 GB SD 1.5 corre bien con dos ControlNets, SDXL solo con uno y obligatoriamente con medvram. En 12 GB SDXL con dos CN tira cómodo. En 16 GB y más se pueden montar cualquier combinación sin restricciones.
En 2026 la configuración de trabajo para producto comercial es una tarjeta gráfica desde 12 GB. Todo lo que esté por debajo exige compromisos en resolución o número de unidades.
Errores típicos de configuración
Pesos por defecto en todas las unidades. Cuando dos ControlNets están en Weight 1.0, se pelean entre sí. Uno estira la manta, el otro también. El prompt se ignora. Regla: la suma de los pesos de todos los ControlNets no debe exceder mucho 1.2-1.5.
Preprocesador incorrecto para la fuente. Entregas a la entrada un mapa de Canny ya listo, pero dejas el preprocesador en canny. La extensión intenta procesar otra vez el mapa terminado, y sale basura. Si ya tienes un mapa listo, pon el preprocesador en none.
Resolución del preprocesador menor que la de generación. Si generas a 1024x1024 pero el preprocesador está en 512, ControlNet trabaja con un mapa burdo y pierde detalles finos. Pon Preprocessor Resolution igual o cercano al lado mayor del lienzo.
Ignorar Ending Step. El 90 por ciento de los retocadores deja Ending Step en 1.0 y se pregunta por qué los brillos salen muertos. Bájalo a 0.8-0.85, los últimos pasos los rematará el modelo libremente y los materiales cobrarán vida.
Retención fuerte con prompt débil. ControlNet no es magia. Si el prompt está descrito en tres palabras, ninguna combinación de ControlNet lo va a hacer bonito por ti. La estructura se mantendrá, pero la calidad de la luz, el material y la atmósfera dependen del prompt.
Usar una sola combinación en todo el catálogo. Un reloj y una manta no se hacen con la misma configuración. Cada tipo de producto lleva su propia combinación de ControlNet. Un estudio serio mantiene una biblioteca de presets para 10-15 escenarios típicos.
Qué viene después
Dominar ControlNet es el primer paso hacia el trabajo comercial con IA en producto. Después vienen LoRA, pipelines en ComfyUI, inpainting, prompts regionales. Ensamblar todo eso en un flujo de trabajo a los autodidactas les lleva 8-14 meses, y la mayoría se desinfla: los foros son cerrados, los videos quedan desactualizados en 3 meses, cada error cuesta horas.
Si quieres recorrer ese camino en 3-4 meses con estructura, retroalimentación y tareas comerciales reales, mira el curso AI PRO de gdefoto. Ciclo completo: desde la instalación de SD y ControlNet para producto, pasando por LoRA e IPAdapter, hasta la entrega llave en mano de un catálogo de marketplace. Los profesores son retocadores en ejercicio, se revisa cada trabajo en persona, hay chat cerrado de egresados y una biblioteca de presets en constante actualización. Detalles e inscripción al próximo cohorte: Inscríbete en AI PRO
ControlNet es una herramienta, no un fin. El fin es el retoque comercial de nueva generación, donde una serie se filma diez veces más rápido y se ve mejor que con el enfoque clásico. Para allá va el mercado.