Stable Diffusion gratis: instalacion en tu PC para no programadores en 2026


gdefoto article

Stable Diffusion gratis: instalacion en tu PC para no programadores en 2026

Si retocas fotos de producto para marketplaces como Amazon, AliExpress o tiendas Shopify, o haces bodegon profesional, seguro has visto a otros companeros generar fondos, pintar sombras y montar escen

Intro

Si retocas fotos de producto para marketplaces como Amazon, AliExpress o tiendas Shopify, o haces bodegon profesional, seguro has visto a otros companeros generar fondos, pintar sombras y montar escenas completas sin pisar un estudio. La mayoria paga servicios: Midjourney, Adobe Firefly, Magnific. La suscripcion corre cada mes, las imagenes viven en servidores ajenos y las fichas de tus clientes acaban en la nube de otro.

Existe una alternativa gratuita. Stable Diffusion corre en tu propio ordenador, sin internet y sin suscripciones. El modelo es abierto, los pesos estan en Hugging Face y Civitai, y el codigo fuente de A1111 esta en GitHub. Lo instalas una vez y a partir de ahi generas las imagenes que quieras, incluso mil al dia.

En este articulo veremos la instalacion desde cero. Sin una sesion de terminal de 200 comandos, sin Docker, sin WSL. Solo Python, Git y una interfaz limpia en el navegador. Hicimos este mismo camino en el curso AI PRO, ahora lo repetimos contigo. Al final tendras Stable Diffusion funcionando en tu ordenador y varios modelos probados para producto y retoque.

Que es Stable Diffusion y por que se instala en local

Stable Diffusion es una red neuronal que genera imagenes a partir de texto. Stability AI lanzo la primera version en 2022 con pesos abiertos. Desde entonces la comunidad ha entrenado miles de modelos derivados: para retratos, anime, producto, arquitectura, moda.

El principio es sencillo. Escribes un prompt ("anillo de plata con un zafiro sobre fondo blanco, luz suave, foto de estudio"), el modelo pasa ruido por la red y poco a poco lo convierte en imagen. A diferencia de Midjourney, donde recibes el resultado en un servidor ajeno y no controlas los detalles, el Stable Diffusion local te da control total.

Stable Diffusion vs Midjourney vs DALL-E 3 vs Firefly

| Parametro | Stable Diffusion local | Midjourney v7 | DALL-E 3 | Adobe Firefly 3 |

|---|---|---|---|---|

| Precio | Gratis | desde 10$/mes | dentro de ChatGPT Plus | dentro de Creative Cloud |

| Privacidad | Todo en tu PC | En servidores | En servidores de OpenAI | En servidores de Adobe |

| ControlNet, inpainting, LoRA | Si, todo | No | No | Parcial |

| Modelos y LoRA propios | Si | No | No | No |

| Uso comercial | Si (revisa la licencia del modelo) | Solo planes de pago | Si | Si |

| Curva de entrada | Alta | Baja | Minima | Baja |

Si publicas un post a la semana, Midjourney es mas comodo. Si retocas 50 fichas de producto al dia, el Stable Diffusion local se amortiza en un mes.

Requisitos del PC: que necesitas en 2026

El recurso clave es la memoria de video (VRAM) en una tarjeta Nvidia. No es la RAM del sistema ni el espacio en SSD, es la memoria de la propia GPU. Sin ella el modelo no carga. AMD e Intel Arc tambien funcionan pero por atajos (DirectML, ROCm en Linux), y no lo recomendamos a principiantes.

Minimo para arrancar

  • GPU Nvidia con 6 GB de VRAM (RTX 2060, RTX 3050, GTX 1660 Super)
  • 16 GB de RAM del sistema
  • 100 GB libres en SSD (cada modelo pesa entre 2 y 7 GB, el disco se llena rapido)
  • Windows 10/11 o Linux
  • Driver Nvidia Studio actualizado

Con este minimo no arrancaran SDXL ni Flux, solo el SD 1.5 base. Una imagen de 512x512 tarda entre 15 y 25 segundos.

Configuracion recomendada

  • GPU Nvidia con 12 a 16 GB de VRAM (RTX 4070, RTX 4070 Ti Super, RTX 5070, RTX 3090 de segunda mano)
  • 32 GB de RAM
  • SSD NVMe de 1 TB para modelos y cache
  • Buena refrigeracion, la generacion calienta la tarjeta como mineria

En una RTX 4070 Super (12 GB) una imagen SDXL a 1024x1024 se renderiza en 8 a 12 segundos, Flux dev en 30 a 40 segundos. Ese es un ritmo valido para encargos comerciales.

Cuando no merece la pena instalarlo local

Si tienes un portatil con grafica integrada, un MacBook M1/M2 sin 32 GB de unified memory o un PC viejo sin GPU dedicada, no te pelees. Alquila una GPU en runpod.io o vast.ai (desde 0,30$ por hora una RTX 4090) o usa Google Colab. Para probar es suficiente, pero si vas a producir todos los dias sale mas barato montar un PC propio.

Instalacion paso a paso: Python, Git, AUTOMATIC1111

A1111 (Automatic1111 WebUI) es el frontend mas popular para Stable Diffusion. Se abre en el navegador y, una vez instalado, no requiere saber programar. Alternativas: ComfyUI (mas potente pero mas dificil), Forge (un fork de A1111 que va mas rapido en GPU nuevas), Fooocus (simplificado). Empezamos por A1111 y mas adelante eliges lo que prefieras.

Paso 1. Instalar Python 3.10.6

Justo 3.10.6, ni 3.11 ni 3.12. A1111 es delicado con versiones nuevas.

  1. Descargas python-3.10.6-amd64.exe desde python.org/downloads/release/python-3106
  2. Durante la instalacion marca obligatoriamente "Add Python to PATH" en la parte inferior de la primera ventana
  3. Pulsa Install Now
  4. Verifica en la linea de comandos: python --version debe mostrar 3.10.6

Si ya tienes Python 3.11 o 3.12, no lo desinstales. Pon 3.10.6 al lado y configura la ruta por variable de entorno, o llamalo con py -3.10.

Paso 2. Instalar Git

Git sirve para clonar el repositorio de A1111 y actualizarlo despues con un solo comando.

  1. Descarga el instalador en git-scm.com/download/win
  2. Instala con todas las casillas por defecto
  3. Verifica con git --version en la consola

Paso 3. Clonar A1111

Crea una carpeta para redes neuronales, por ejemplo D:\AI\ o C:\StableDiffusion\. La ruta no debe contener espacios ni caracteres no latinos.

Abre la consola en esa carpeta (clic derecho en el explorador, "Abrir en Terminal", o Shift mas clic derecho, "Abrir ventana de comandos"). Escribe:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git

Se descargara la carpeta stable-diffusion-webui, unos 50 MB. Es la interfaz, todavia sin modelos.

Paso 4. Primer arranque

Entra en la carpeta stable-diffusion-webui, busca el archivo webui-user.bat y haz doble clic. Se abre una ventana negra y empieza a descargar dependencias: torch, xformers, gradio, etc. Bajara entre 4 y 6 GB y tardara entre 10 y 30 minutos la primera vez.

Cuando veas la linea Running on local URL: http://127.0.0.1:7860, abre esa direccion en el navegador. Ahi tienes la interfaz de A1111.

Si peta con un error de CUDA, torch o memoria, mira la seccion de errores mas abajo.

Modelos gratis para foto y producto

El modelo base Stable Diffusion 1.5 hace de todo un poco, pero nada bien. Para foto comercial necesitas modelos fine-tuned entrenados por la comunidad. Se descargan de civitai.com (registro gratis obligatorio). Los archivos se colocan en stable-diffusion-webui/models/Stable-diffusion/.

Top de modelos para producto y retoque en 2026

| Modelo | Base | Tamano | Para que |

|---|---|---|---|

| Realistic Vision V6.0 B1 | SD 1.5 | 2 GB | Personas realistas, piel, retratos |

| Juggernaut XL v11 | SDXL | 6,5 GB | Realismo universal, producto, moda |

| epiCRealism XL Last Hope | SDXL | 6,5 GB | Fotorrealismo, foto de producto |

| RealVisXL V5.0 | SDXL | 6,5 GB | Texturas detalladas, metal, vidrio |

| Flux.1 dev | Flux | 23 GB | Calidad top, requiere 16 GB+ de VRAM |

| DreamShaper XL Turbo | SDXL | 6,5 GB | Generacion rapida en 4 a 8 pasos |

Para joyeria y relojes coge Juggernaut XL o RealVisXL, manejan bien superficies metalicas y reflejos. Para ropa y textiles, epiCRealism XL. Para caras y modelos en plano, empieza con Realistic Vision V6 y pasa luego a SDXL.

Versiones inpainting: corregir parte de la imagen

Inpainting es el modo donde pintas sobre un trozo de la imagen y le dices al modelo lo que debe poner en su lugar. Imprescindible en retoque: quitar una etiqueta de una prenda, cambiar un fondo, anadir la sombra de un objeto.

Descarga las versiones inpaint de los mismos modelos:

  • Realistic Vision V6.0 B1 Inpainting
  • Juggernaut XL Inpainting
  • epiCRealism Inpainting

Los pones en la misma carpeta models/Stable-diffusion. Cambias a img2img y luego Inpaint en A1111, eliges el checkpoint inpainting, pintas la mascara sobre el problema y escribes el prompt. Es una herramienta real que cubre el 80% de los casos de Relleno generativo de Photoshop, gratis y sin la suscripcion de Adobe.

VAE: para saturacion y contraste

VAE (variational autoencoder) es un archivo pequeno de 300 a 800 MB que se encarga del procesado final del color. Sin el VAE correcto las imagenes salen palidas y grises. Descarga:

  • vae-ft-mse-840000-ema-pruned para SD 1.5
  • sdxl_vae para SDXL

Lo dejas en models/VAE y lo seleccionas en Settings, Stable Diffusion, SD VAE.

ControlNet: control de la composicion

Un prompt seco da resultados aleatorios. Hoy generas un anillo bonito centrado, manana el mismo anillo se va a una esquina y queda torcido. ControlNet resuelve eso.

ControlNet es un conjunto de modelos que anaden una entrada extra a Stable Diffusion: un boceto, un mapa de profundidad, una pose, contornos, normales de superficie. Le pasas una referencia a la red y la red dibuja estrictamente segun esa guia.

Los preprocesadores que mas funcionan

  • Canny: extrae contornos. Util para repintar un objeto en otro estilo conservando su forma
  • Depth: mapa de profundidad. Mantiene la estructura 3D de la escena al cambiar materiales
  • OpenPose: esqueleto humano. Reproduce la pose del modelo de la referencia con precision
  • Lineart: lineas limpias para ilustracion y concept art
  • IP-Adapter: traslada el estilo de una imagen de referencia entera
  • Tile: upscale con restauracion de detalle

Para producto necesitas sobre todo Canny y Depth. Fotografias una joya sobre fondo gris, la pasas por Canny y generas la misma joya sobre marmol con petalos alrededor. La forma no se mueve.

Instalacion de ControlNet

  1. En A1111 vas a Extensions, Install from URL
  2. Pegas https://github.com/Mikubill/sd-webui-controlnet
  3. Pulsas Install y reinicias A1111
  4. Descargas los modelos ControlNet desde huggingface.co/lllyasviel/sd_control_collection (para SDXL) o /lllyasviel/ControlNet-v1-1 (para SD 1.5)
  5. Los pones en extensions/sd-webui-controlnet/models/

Tras el reinicio aparece un panel ControlNet plegado bajo la ventana de txt2img. Le cargas tu referencia, eliges el tipo y generas.

Ejemplo de retoque fotografico

Errores tipicos en el primer arranque

CUDA out of memory

El error mas comun. La VRAM se agoto. Soluciones de mayor a menor impacto:

  1. Baja la resolucion. 1024x1024 no entra en 6 GB, ponlo a 512x768
  2. En webui-user.bat anade los parametros: set COMMANDLINE_ARGS=--xformers --medvram. Para tarjetas muy pequenas, --lowvram
  3. Cierra Chrome, Photoshop, Lightroom. Comen VRAM en segundo plano
  4. Baja el batch size a 1
  5. Usa modelos SD 1.5 en lugar de SDXL si tu tarjeta tiene menos de 8 GB

Imagen negra en la salida

Suele significar que el VAE no se cargo o es incompatible con el modelo. Comprueba que has seleccionado el VAE correcto (SD 1.5 VAE para modelos 1.5, SDXL VAE para SDXL). Si no se arregla, anade el parametro --no-half-vae a COMMANDLINE_ARGS.

La generacion tarda una hora por imagen

  • Comprueba que se usa la GPU y no la CPU. En la consola al arrancar debe aparecer "device: cuda", no "device: cpu". Si pone cpu, reinstala torch con soporte CUDA
  • Instala xformers: anade --xformers a COMMANDLINE_ARGS
  • Elimina extensiones innecesarias, se cargan en cada arranque
  • Asegurate de que el driver Nvidia esta al dia (a traves de GeForce Experience)

"Torch is not able to use GPU"

Lo mas probable es que la grafica integrada Intel o AMD se haya seleccionado por defecto, o que torch se instalara sin CUDA. En webui-user.bat pon:

set COMMANDLINE_ARGS=--reinstall-torch

Arranca una vez y luego quita ese parametro.

Las extensiones rompen la interfaz

Despues de instalar una extension nueva la interfaz no abre. Se cura borrando la carpeta de la extension en extensions/, o arrancando con --disable-all-extensions.

Gratis vs Magnific, Topaz, Firefly: comparativa sin maquillaje

El Stable Diffusion local no es una bala de plata. Aqui es donde gana de verdad a los servicios de pago y donde pierde.

Donde gana Stable Diffusion local

  • Volumen. Generas 500 variantes de fondo en una tarde, nadie cuenta tokens
  • Privacidad. Las fichas del cliente no salen del equipo
  • Personalizacion. LoRA entrenada en tu producto, ControlNet, inpainting al pixel
  • Coste final. Tras amortizar el hardware, cero por imagen

Donde ganan los servicios de pago

  • Magnific y Topaz Gigapixel 8 siguen por delante en upscale y restauracion de detalle (4x-UltraSharp y SUPIR local se acercan, pero no siempre)
  • Firefly esta integrado en Photoshop y funciona desde el primer dia sin instalar nada
  • Midjourney v7 da una imagen bonita con una linea de prompt; el SD local pide elegir modelo y ajustar parametros
  • DALL-E 3 entiende mejor los prompts complejos en espanol

Esquema de trabajo para un retocador comercial en 2026: el grueso en Stable Diffusion local (fondos, inpaint, variantes), upscale y nitidez final en Magnific o Topaz, retoque en Photoshop. Con este enfoque no hacen falta suscripciones a Midjourney ni Firefly.

Hacia donde ir despues

Cuando ya tienes A1111 instalado, has bajado tres o cuatro modelos y generado tus primeras cien imagenes, aparecen preguntas mas serias:

  • Como entrenar una LoRA con tu propio producto para que el modelo conozca exactamente tu pendiente
  • Como configurar ControlNet con varias referencias a la vez
  • Como montar una tuberia en ComfyUI para procesar 200 fichas en una noche
  • Como hacer regional prompting (prompts distintos en partes distintas de la misma imagen)
  • Como usar SDXL Refiner y Hi-Res Fix para calidad premium
  • Que LoRA funcionan de verdad para joyeria y como combinarlas

Estos temas estan dispersos por Reddit, Civitai y servidores de Discord, y en espanol hay muy poco. Montar el sistema a partir de retales se puede, pero lleva meses.

Listo para pasar de la instalacion al trabajo comercial

En el estudio gdefoto llevamos tres anos fotografiando y retocando producto para marketplaces y hemos formado una practica real de Stable Diffusion en produccion. El curso AI PRO cubre justo el flujo descrito arriba: A1111 desde cero, ControlNet para joyeria, entrenamiento de LoRA con tus productos, escenarios de inpaint para marketplaces, upscale y acabado. Cada leccion se construye sobre casos concretos: anillos, pendientes, cadenas, sesiones reales.

Si has llegado hasta aqui y entiendes que quieres hacerlo en serio, no como hobby sino para cobrar retocando con AI, mira el programa del curso en /lk/ai-pro/buy/. Alli esta el plan completo, ejemplos de trabajos de alumnos y el formato de aprendizaje. Las plazas son limitadas por grupo para poder dar feedback personal a cada uno.