Mejor tarjeta gráfica para Stable Diffusion en 2026: ranking y comparativa para retoque y generación con IA
Mejor tarjeta gráfica para Stable Diffusion en 2026: ranking y comparativa para retoque y generación con IA
Si trabajas en retoque de producto y ya has empezado a probar Stable Diffusion, ComfyUI o Forge, seguramente te has topado enseguida con la pregunta principal: qué tarjeta gráfica aguanta el trabajo d
Intro
Si trabajas en retoque de producto y ya has empezado a probar Stable Diffusion, ComfyUI o Forge, seguramente te has topado enseguida con la pregunta principal: qué tarjeta gráfica aguanta el trabajo de verdad y cuál genera una sola imagen en tres minutos y se cae a mitad de tareas. La respuesta corta es esta: para IA no importa el rendimiento gaming, importa la memoria de vídeo. Y ese es precisamente el parámetro que los fabricantes recortan en cada lanzamiento para venderte el buque insignia.
En este artículo analizamos el mercado de 2026 desde la perspectiva del retocador, no del gamer. Qué comprar según presupuesto, cuánta VRAM necesitas realmente para SDXL, Flux y los upscalers, por qué NVIDIA sigue inalcanzable para AMD y dónde tiene sentido ahorrar frente a dónde ahorrar te saldrá caro.
Si necesitas respuesta rápida: el mejor equilibrio precio capacidad en 2026 lo dan la RTX 4070 Ti Super 16GB (nueva) y la RTX 3090 24GB (usada). Si el presupuesto es muy ajustado, la RTX 3060 12GB se consigue por una miseria en el mercado de segunda mano. A continuación, el detalle.
Qué importa en una GPU para Stable Diffusion: la VRAM lo es todo
La regla principal de la generación con IA es simple: la VRAM importa más que todas las demás características juntas. La velocidad de generación depende de los núcleos tensor, las frecuencias y la arquitectura, pero si no hay suficiente memoria, la generación ni siquiera arranca.
Cuando abres Stable Diffusion XL a 1024 por 1024 con un par de LoRA, un ControlNet y un upscaler, el modelo carga en memoria los pesos del modelo base (unos 7 GB para SDXL en FP16), el VAE y los codificadores de texto (2 a 3 GB), los adaptadores LoRA (de 100 MB a 1 GB cada uno), el ControlNet (1 a 2 GB cada uno) y los latentes durante el muestreo. Un flujo realista se come de 10 a 12 GB, y Flux Dev en FP16 supera los 24 GB. Una tarjeta con 8 GB o empieza a hacer swap a la RAM del sistema (y se ralentiza de 5 a 10 veces) o simplemente devuelve un error.
El segundo parámetro en importancia es la generación de la arquitectura. La RTX 30 (Ampere) sabe calcular FP16, pero no tiene soporte nativo de FP8. La RTX 40 (Ada Lovelace) y la RTX 50 (Blackwell) aceleran Flux y SDXL en 1.5 veces con FP8 con el mismo consumo de memoria.
Cuánta VRAM necesita cada tarea
La pregunta más frecuente del retocador que aún no ha elegido tarjeta es: cuánta memoria me bastará. Aquí va la asignación a tareas reales:
| VRAM | Lo que funciona | Lo que no funciona |
|------|-----------------|--------------------|
| 4 GB | SD 1.5 a 512x512 con flag lowvram, inpainting básico | SDXL, Flux, upscalers serios, entrenamiento de LoRA |
| 6 GB | SD 1.5 normal, SDXL con medvram y Tiled VAE | SDXL cómodo, Flux, entrenamiento de modelos |
| 8 GB | SDXL básico, un ControlNet, upscale simple a 2048 | Flux a precisión completa, flujos pesados con 2 o 3 ControlNet |
| 12 GB | SDXL cómodo, dos ControlNet, Flux en cuantización Q4 o Q5, entrenamiento de LoRA para SD 1.5 | Flux FP16, entrenamiento de LoRA SDXL con batches grandes |
| 16 GB | Flux en Q8, SDXL sin restricciones, entrenamiento de LoRA SDXL, upscale a 4K | Flux FP16 con ControlNet, modelos de vídeo |
| 24 GB+ | Flux FP16 completo, modelos de vídeo (Wan, Hunyuan), Stable Diffusion 3.5 Large, entrenamiento por lotes | Solo las tareas más exóticas |
Para un retocador en activo que va a integrar IA en producción (generación de fondos, ampliación de encuadre, transferencia de estilos, generación de bg plate para producto), el mínimo real para 2026 son 12 GB. Con 8 GB chocarás constantemente con los límites y perderás tiempo optimizando en lugar de trabajar.
Por qué NVIDIA: CUDA y el ecosistema
En resumen, NVIDIA no tiene competencia en generación con IA. Todos los frameworks principales (PyTorch, xFormers, TensorRT) están escritos para CUDA. Cada optimización que sale el primer día tras el lanzamiento de un modelo nuevo está escrita para CUDA. Todos los nodos de ComfyUI, todas las extensiones de Automatic1111 y Forge se prueban en NVIDIA.
CUDA no es solo un driver, es un ecosistema en capas: cuDNN, cuBLAS, TensorRT, NCCL. Cuando lanzas SDXL en NVIDIA, la GPU aprovecha miles de años persona de optimizaciones. En AMD las mismas operaciones pasan por wrappers, más lentos y con bugs.
Cifras concretas: en una tarjeta AMD con rendimiento teórico equivalente (por ejemplo RX 7900 XTX frente a RTX 4080) NVIDIA gana en generación SDXL entre 1.8 y 2.5 veces. En Linux con ROCm la diferencia baja a 1.4 veces. Además, comprando NVIDIA hoy podrás ejecutar cualquier modelo nuevo dentro de un año sin perder el tiempo. Con AMD tendrás que esperar a que alguien porte el soporte.
AMD en Windows y Linux: cuándo se justifica
Si ya tienes una tarjeta AMD, no la tires todavía. En Windows funciona DirectML (vía Microsoft Olive o ComfyUI con proveedor DirectML), en Linux funciona ROCm 6.x con soporte nativo de PyTorch.
Escenarios reales donde AMD tiene sentido:
- Ya tienes una RX 6800, 6900 o 7900 y no hay dinero para cambiar
- Estación de trabajo solo Linux donde quieres la máxima VRAM por euro (la RX 7900 XTX 24GB cuesta más o menos lo mismo que una RTX 4070 Ti Super 16GB)
- Rechazo de principios a NVIDIA y disposición a invertir tiempo en configuración
Si compras una GPU específicamente para IA, AMD no es opción. El tiempo invertido en configurar ROCm y buscar forks que funcionen pagará la diferencia con NVIDIA en las primeras dos semanas.
Apple Silicon en M1, M2, M3 y M4 funciona a través del backend MPS de PyTorch. SD 1.5 va cómodo, SDXL es 3 a 4 veces más lento que una RTX 4060 Ti comparable. Flux solo funciona en M3 Max y M4 Max con 32 GB o más de memoria unificada. La ventaja principal de los Mac es el pool de memoria, pero el precio es brutal. Para la mayoría de retocadores el MacBook es un caballo de batalla para Photoshop y un PC aparte con NVIDIA es la estación de IA.
Ranking de tarjetas por presupuesto
Precios orientativos para mediados de 2026, mercado nuevo minorista en zona euro.
Hasta 300 EUR: entrada con presupuesto
| Tarjeta | VRAM | SDXL 1024 | Veredicto |
|---------|------|-----------|-----------|
| RTX 3050 8GB | 8 GB | unos 45 seg | Mínimamente aceptable, sin margen |
| RTX 4060 8GB | 8 GB | unos 30 seg | Mejor nueva en gama baja |
La RTX 4060 es la tarjeta más barata de la serie 40 y tiene FP8. La pega es que solo lleva 8 GB, que para 2026 ya van justos. Cómprala solo si el presupuesto está bloqueado y aceptas trabajar con concesiones (medvram, tiling de upscalers).
300 a 550 EUR: mínimo razonable
| Tarjeta | VRAM | SDXL 1024 | Veredicto |
|---------|------|-----------|-----------|
| RTX 3060 12GB | 12 GB | unos 38 seg | Mejor relación VRAM precio en gama baja |
| RTX 4060 Ti 16GB | 16 GB | unos 28 seg | Entrada ideal al trabajo con IA |
La RTX 4060 Ti 16GB es la tarjeta nueva más sensata para IA en 2026 en esta franja. 16 GB de VRAM, FP8, Ada Lovelace, bus de 128 bits (un punto en contra para juegos pero indiferente para IA). Por unos 520 EUR consigues una tarjeta que mueve todo salvo Flux FP16.
La RTX 3060 12GB sigue vigente, especialmente de segunda mano por 200 a 240 EUR. Sin FP8, pero 12 GB de VRAM resuelven mucho.
550 a 1000 EUR: caballo de batalla
| Tarjeta | VRAM | SDXL 1024 | Veredicto |
|---------|------|-----------|-----------|
| RTX 4070 12GB | 12 GB | unos 18 seg | Rápida, pero poca memoria |
| RTX 4070 Super 12GB | 12 GB | unos 16 seg | Igual, algo más rápida |
En este rango hay dilema. La RTX 4070 y la 4070 Super son más rápidas que la 4060 Ti 16GB por chip, pero solo llevan 12 GB. Para el trabajo clásico de retoque con SDXL y un ControlNet llega. Pero si planeas meterte con Flux o con entrenamiento, mejor pagar un poco más y subir un peldaño.
1000 a 1650 EUR: producción seria
| Tarjeta | VRAM | SDXL 1024 | Veredicto |
|---------|------|-----------|-----------|
| RTX 4070 Ti Super 16GB | 16 GB | unos 14 seg | Sweet spot de 2026 |
| RTX 4080 Super 16GB | 16 GB | unos 12 seg | Más rápida, pero el precio pesa |
La RTX 4070 Ti Super 16GB es la mejor compra para un retocador que se toma en serio la IA. 16 GB de VRAM, bus de 256 bits, FP8, velocidad cercana a la 4080. Mueve Flux en Q8, SDXL con cualquier configuración, entrena LoRA. Esta tarjeta te cubre las cargas de IA los próximos 2 o 3 años.
2200 EUR y más: buques insignia
| Tarjeta | VRAM | SDXL 1024 | Veredicto |
|---------|------|-----------|-----------|
| RTX 4090 24GB | 24 GB | unos 12 seg | Rey de la IA hasta 2025 |
| RTX 5090 32GB | 32 GB | unos 8 seg | Nuevo rey, si la encuentras |
La RTX 4090 es el estándar del sector. Si el presupuesto lo permite y quieres una tarjeta que dentro de 3 años siga vigente, esta es la elección correcta. 24 GB de VRAM mueven Flux FP16, modelos de vídeo y entrenamiento SDXL.
La RTX 5090 con 32 GB y soporte de FP4 para inferencia en Blackwell es el nuevo techo. Si tienes la tarjeta disponible y presupuesto, no tiene sentido comprar nada menor para producción seria de IA.
Mercado de segunda mano: 3060 12GB y 3090 24GB
Si el presupuesto es ajustado pero quieres el máximo de memoria, el mercado de segunda mano salva el día. En la zona euro eBay y los foros locales de venta entre particulares son los canales obvios.
La RTX 3060 12GB de segunda mano cuesta 180 a 230 EUR. Por ese dinero obtienes 12 GB de VRAM, que cubren el 90 por ciento de las tareas de IA. Más lenta que la 4060 Ti, pero si la elección es entre una 3060 12GB usada y una 3050 8GB nueva, siempre 3060.
La RTX 3090 24GB es la mejor compra usada para IA. En eBay aparece por 650 a 870 EUR. En memoria iguala a la 4090, en velocidad SDXL se queda atrás un 40 por ciento, pero por la mitad de precio se tolera. 24 GB abren la puerta a Flux FP16, modelos de vídeo y entrenamiento serio. Pegas: consume 350 vatios, calienta, exige una fuente potente (mínimo 850W) y buena ventilación.
Lo que no comprar de segunda mano: todo lo que haya estado minando. La serie RTX 30 tras dos años de hashrate 24/7 es una lotería. Comprueba las temperaturas de memoria en HWInfo: si en una 3090 la memoria sube de 100 grados bajo carga, los pads térmicos están muertos.
Tiempos reales de SDXL 1024 en distintas tarjetas
Las cifras siguientes son para SDXL 1024 por 1024 base, 30 pasos de DPM++ 2M Karras, sin upscale ni ControlNet. Una tarea real con upscale y LoRA llevará 2 a 3 veces más.
| Tarjeta | Tiempo de generación | Precio nuevo |
|---------|----------------------|--------------|
| RTX 3050 8GB | 45 seg | 250 EUR |
| RTX 4060 8GB | 30 seg | 305 EUR |
| RTX 3060 12GB | 38 seg | 295 EUR (o 215 usada) |
| RTX 4060 Ti 16GB | 28 seg | 520 EUR |
| RTX 4070 12GB | 18 seg | 705 EUR |
| RTX 4070 Super 12GB | 16 seg | 785 EUR |
| RTX 4070 Ti Super 16GB | 14 seg | 1035 EUR |
| RTX 4080 Super 16GB | 12 seg | 1470 EUR |
| RTX 3090 24GB | 17 seg | 760 EUR usada |
| RTX 4090 24GB | 12 seg | 2500 EUR |
| RTX 5090 32GB | 8 seg | 3480 EUR |
Apunte: entre la 4060 Ti 16GB y la 4070 hay 1.5 veces de diferencia en velocidad, pero la 4060 Ti tiene 16 GB frente a 12 GB. Para flujos pesados gana la VRAM. Para velocidad pura de generación simple gana la 4070.
Consumo y refrigeración
Las tarjetas modernas de IA son estufas. No al nivel de los rigs de minería, pero exigen atención a caja y fuente.
- RTX 4060 y 4060 Ti: 115 a 160 W, fuente 550W es suficiente
- RTX 4070 y 4070 Super: 200 a 220 W, fuente 650W
- RTX 4070 Ti Super y 4080 Super: 285 a 320 W, fuente 750W
- RTX 4090: 450 W, fuente 850 a 1000W
- RTX 5090: 575 W, fuente 1000W o más
- RTX 3090 (usada): 350 W, fuente 850W obligatoria
Bajo carga sostenida de IA la tarjeta trabaja a frecuencias pico durante horas. Una caja gaming con un solo ventilador de extracción no vale. Mínimo tres ventiladores: dos de entrada, uno de salida. Para 4090 y 5090 es mejor un banco abierto o una caja especializada con buen flujo de aire. El ruido en un despacho cansa, así que o refrigeración líquida o el PC tras un tabique.
Qué hacer con presupuesto limitado
Si no hay dinero para una tarjeta decente pero hay que hacer trabajo con IA, hay tres niveles de concesión.
Nivel 1: optimizar en una tarjeta media. Lanza Stable Diffusion con los flags --medvram (6 a 8 GB) o --lowvram (4 GB). Activa Tiled VAE y Tiled Diffusion para upscales. Usa modelos cuantizados (Q4_K_S, Q5 GGUF para Flux). La velocidad cae un 30 a 50 por ciento, pero al menos la generación arranca.
Nivel 2: servicios en la nube. RunPod, Vast.ai y Massed Compute dan acceso a RTX 4090, A6000 o H100 por 0.30 a 2 EUR la hora. Si haces 5 a 10 renders por semana, alquilar sale más barato que comprar.
Nivel 3: APIs. Replicate, Fal.ai, Leonardo vía API. Pagas por generación y te olvidas del hierro. Bien para tareas ocasionales, mal para trabajo sistemático. Para un retocador que integra IA en su flujo diario, el hierro propio se amortiza en 3 a 6 meses comparado con la nube.
Qué no comprar en 2026
Para ahorrarte tiempo:
- GTX 1660, 1660 Ti, 1660 Super: solo 6 GB, sin núcleos tensor, lentas. SD 1.5 arranca, pero es un sufrimiento. Para IA en 2026 esta serie está muerta.
- GTX 1080 y 1080 Ti: incluso con 11 GB en la 1080 Ti, la falta de núcleos tensor la hace 4 a 5 veces más lenta que una 3060 12GB. No vale ni por 80 EUR.
- RTX 2060 6GB: poca VRAM, velocidad baja. Solo si ya la tienes y no hay con qué reemplazarla.
- RTX 4060 Ti versión 8GB: confundirla con la versión 16GB es un error clásico. 8 GB por 430 EUR es pagar de más.
- AMD RX 580, 590, 5500: sin soporte ROCm, DirectML va a trompicones. Tu tiempo vale más que el dinero ahorrado.
- Intel Arc A770 16GB: sobre el papel interesa, en la práctica el soporte en los frameworks SD está verde. Dentro de un año puede ser buena opción, hoy no.
CTA: curso AI PRO
Ya elegiste la tarjeta, la instalaste, lanzaste ComfyUI y chocaste con la siguiente pregunta: qué hacer con este hierro. Qué modelos descargar, cómo montar un flujo para fotografía de producto, cómo generar fondos para ropa de marketplace, cómo entrenar una LoRA con tus propios productos, cómo integrar IA en Photoshop.
El curso AI PRO de gdefoto.com es un curso práctico para fotógrafos y retocadores que están metiendo Stable Diffusion y Flux en producción. No teoría sobre redes neuronales, sino flujos concretos: generación de bg plate para producto, ampliación de encuadre, sustitución de fondos, entrenamiento de LoRA sobre identidad de marca, integración con Photoshop y Capture One.
Tras el curso harás visuales para publicidad en 30 minutos en lugar de dos días y ofrecerás a tus clientes servicios que la competencia aún no domina.
Resumen: qué comprar en 2026
Lista corta por presupuesto:
- Hasta 300 EUR: RTX 4060 8GB nueva o RTX 3060 12GB usada.
- 400 a 530 EUR: RTX 4060 Ti 16GB. Entrada a la IA seria.
- 760 a 980 EUR: RTX 4070 Super 12GB nueva o RTX 3090 24GB usada.
- 980 a 1650 EUR: RTX 4070 Ti Super 16GB. La mejor elección para la mayoría de profesionales.
- 2200 EUR y más: RTX 4090 24GB o RTX 5090 32GB. Tope sin concesiones.
Lo principal que hay que recordar: 8 GB de VRAM en 2026 ya son pocos. 12 GB son el mínimo para estar cómodo. 16 GB son el techo razonable para la mayoría de tareas. 24 GB y más son para quien choca con los 16 GB a diario. No escatimes en memoria, escatima en velocidad. Dentro de dos años te lo agradecerás.