¿Qué modelos de IA puedo ejecutar con 16 GB de RAM?

Con 16 GB ejecutas cómodamente modelos de hasta 7–8B parámetros en cuantización Q4: Llama 3.2 8B, Mistral 7B, Gemma 2 9B, Phi-3.5. Son más que suficientes para asistente de código, resúmenes y chat. Para modelos de 13B necesitarías cerrar casi todo; para 14B+ ya necesitas 28–32 GB.

¿Qué herramientas uso para ejecutar IA en local?

Ollama es la opción más sencilla: se instala en un comando y soporta prácticamente todos los modelos populares (Llama, Mistral, Gemma, Qwen, DeepSeek…). Para una interfaz gráfica similar a ChatGPT, LM Studio y Jan.ai son las más usadas. Las tres funcionan perfectamente en Mac (con aceleración Metal), Windows y Linux.

¿Es mejor Mac o Windows para IA en local con presupuesto medio?

Con 1.200–1.800 € el Mac gana claramente: 28–32 GB de memoria unificada te permiten ejecutar modelos de 34B que no cabrían en los 8–12 GB de VRAM de una GPU de gama media para Windows. La memoria unificada de Apple Silicon cambia completamente la ecuación en este rango de precios.

¿Necesito conexión a internet para usar IA en local?

Solo para descargar el modelo la primera vez. Una vez descargado, funciona 100% sin conexión. Es una de las principales ventajas frente a servicios cloud: privacidad total de tus conversaciones, sin costes por consulta y disponible en cualquier lugar.

🤖 Guía de compra

Mejor laptop o PC para IA en local (2026)

Si quieres ejecutar modelos de inteligencia artificial en tu propio equipo — sin depender de servidores en la nube — la memoria es el factor más crítico. Los modelos de lenguaje como Llama, Mistral o Gemma necesitan caber completamente en RAM para funcionar. Con el equipo equivocado, un modelo de 13B parámetros directamente no arranca.

Qué componentes importan — y cuánto

No todos los componentes tienen el mismo peso para ejecutar IA en local. Aquí te explicamos qué necesitas de verdad y por qué.

Memoria RAM

Crítico

Los modelos de lenguaje se cargan enteros en memoria. Un modelo de 7B parámetros en cuantización Q4 ocupa ~5 GB; uno de 13B ocupa ~9 GB; uno de 34B ocupa ~20 GB; uno de 70B ocupa ~40 GB. Si tu RAM no tiene espacio para el modelo, simplemente no arranca. En Apple Silicon, la memoria unificada sirve simultáneamente de RAM y memoria de GPU — esto cambia completamente la ecuación.

Mínimo 16 GB

Recomendado 28–32 GB

Ideal 64 GB+

Tarjeta gráfica (GPU)

Importante

En Windows y Linux, una GPU con suficiente VRAM acelera la inferencia enormemente mediante CUDA (NVIDIA) o ROCm (AMD). Sin GPU dedicada el modelo corre solo en CPU, que es mucho más lento. En Mac, el chip M integra CPU, GPU y Neural Engine compartiendo la memoria unificada — no necesitas GPU adicional y el rendimiento es sorprendentemente bueno.

Mínimo Sin GPU (CPU only, ~3–5 tokens/s en modelos 7B)

Recomendado RTX 4060 8 GB VRAM (Windows/Linux)

Ideal RTX 4090 24 GB VRAM o Mac con 48–64 GB unificados

Procesador (CPU)

Secundario

Con GPU para inferencia, el procesador tiene poco impacto. Para inferencia CPU-only, más núcleos ayudan pero no es el cuello de botella principal. Los chips Apple Silicon (M4, M5) son especialmente eficientes gracias a su Neural Engine dedicado que acelera las operaciones matriciales de los LLMs.

Mínimo Cualquier procesador moderno de 4+ núcleos

Recomendado Apple M4 / M5 · Intel Core i7 · Ryzen 7 (generación reciente)

Ideal Apple M4 Pro / M5 Pro · AMD Ryzen 9

Almacenamiento

Importante

Los modelos se guardan en disco y se cargan en RAM al ejecutarse. Un modelo de 7B ocupa entre 4–8 GB en disco; uno de 70B puede llegar a 40+ GB. Necesitas espacio para varios modelos y una unidad NVMe rápida para reducir los tiempos de carga inicial.

Mínimo 512 GB NVMe

Recomendado 1 TB NVMe

Ideal 2 TB NVMe

Mac vs PC para IA en local

Para IA en local, la elección entre Mac y Windows/Linux afecta significativamente al rendimiento y la experiencia. Aquí están las diferencias reales:

🍎 Mac (Apple Silicon)

✓ Memoria unificada: CPU y GPU comparten el mismo pool de RAM, sin transferencias lentas entre memorias separadas
✓ A igualdad de precio, obtienes más gigabytes disponibles para los modelos que con GPU dedicada Windows
✓ Eficiencia energética excepcional: inferencia a máxima velocidad sin ventiladores y con batería de todo el día
✓ Compatibilidad perfecta con Ollama, LM Studio y Jan.ai sin configurar drivers ni entornos

🖥️ PC Windows / Linux

✓ RTX 4090 con 24 GB de VRAM dedicada: superior para modelos que caben completamente en la GPU
✓ Mayor techo de velocidad en inferencia pura con GPUs de alta gama
✓ Más opciones de presupuesto (desde 700 € hasta estaciones de trabajo)
✓ Ideal si además necesitas entrenar modelos con CUDA o trabajar con PyTorch/JAX

⚖️

Nuestro veredicto

Para presupuestos hasta 2.000 € el MacBook Air M5 con 28 GB o el Mac mini M4 Pro son la opción más equilibrada: más memoria disponible para los modelos, bajo consumo y cero fricción de configuración. Si necesitas entrenar modelos o tienes presupuesto para una RTX 4090, un PC Windows puede superar al Mac en velocidad de inferencia pura con modelos grandes.

¿Cuánto necesito gastar?

700–1.200 €

Gama entrada

Ejecutas cómodamente modelos de hasta 7–8B parámetros (Llama 3.2 8B, Mistral 7B, Gemma 2 9B). Suficiente para asistente de código, resúmenes y chat conversacional. Los tiempos de respuesta son razonables para uso personal.

→ MacBook Air M4 16 GB · PC sobremesa con RTX 4060 8 GB

1.200–1.800 €

Gama media — punto dulce

Recomendado

Con 28–32 GB ejecutas modelos de hasta 34B parámetros en cuantización Q4 (Llama 3.1 34B, Qwen 32B). La calidad de respuesta da un salto notable respecto a los modelos 7B. Es el rango donde la experiencia de IA local se vuelve realmente cómoda para uso diario.

→ MacBook Air M5 28 GB — la mejor opción en este rango en 2026

2.000 €+

Gama alta

Con 48–64 GB ejecutas modelos de 70B en cuantización (Llama 3.1 70B, DeepSeek 67B) con respuestas fluidas. Experiencia comparable a modelos cloud premium, completamente offline y sin costes por consulta.

→ Mac mini M4 Pro 48 GB · Mac Studio · PC con RTX 4090 24 GB

Nuestras recomendaciones

Los equipos que compraríamos en 2026 para cada perfil.

⭐ Nuestra recomendación

MacBook Air M5 — 28 GB

Mejor relación

El punto dulce para IA en local en 2026. Con 28 GB de memoria unificada ejecuta modelos de hasta 34B en cuantización Q4 con fluidez, sin ventilador y con autonomía de todo el día. Cero configuración: Ollama funciona en un comando. Es el equipo que elegiríamos para uso diario combinando programación e IA en local.

✓ 28 GB memoria unificada (RAM + GPU)
✓ Apple M5 con Neural Engine
✓ 512 GB – 2 TB NVMe
✓ Hasta 18 h de batería

🇪🇸 España Desde 1.499 €

🌎 Latinoamérica ~1.400 USD

Ver precio y comprar

Mac mini M4 Pro — 48 GB

Máximo rendimiento

Para quien quiere máxima potencia en sobremesa y correr modelos de 70B: el Mac mini M4 Pro con 48 GB es el equipo más eficiente del mercado para IA local por debajo de 2.500 €. El chip Pro añade más núcleos de CPU y GPU respecto al Air, acelerando notablemente la inferencia.

✓ 48 GB memoria unificada
✓ Apple M4 Pro — 14 núcleos CPU
✓ GPU de 20 núcleos
✓ SSD NVMe ultrarrápido

🇪🇸 España Desde 1.999 €

🌎 Latinoamérica ~1.800 USD

Ver precio y comprar

PC sobremesa con RTX 4070 Super — 32 GB RAM

Más económico

Si prefieres Windows o planeas entrenar modelos con CUDA, un sobremesa con RTX 4070 Super (12 GB VRAM) y 32 GB de RAM del sistema ofrece gran flexibilidad. Los modelos que caben en los 12 GB de VRAM se ejecutan a máxima velocidad; el resto usa la RAM del sistema. También es la mejor opción para Stable Diffusion y otras IA de imagen.

✓ 32 GB DDR5
✓ RTX 4070 Super 12 GB VRAM
✓ Ryzen 7 7700 o Intel i7-14700
✓ 1 TB NVMe

🇪🇸 España Desde 1.400 €

🌎 Latinoamérica ~1.200 USD

Ver precio y comprar

Preguntas frecuentes

También te puede interesar

🌐 Desarrollo web ← Volver a Programar 🔧 Configurador de PCs