La IA en el dispositivo ha pasado de ser un objetivo de ingeniería de nicho a una estrategia de producto generalizada. Este cambio está impulsado por una modificación simple en la forma en que los principales creadores de modelos piensan el despliegue: en lugar de tratar la inferencia local como un compromiso, cada vez diseñan más modelos abiertos y de pesos abiertos para teléfonos, portátiles, PC, dispositivos edge y otro hardware con recursos limitados desde el principio.
Esto importa porque los modelos abiertos reducen varias barreras al mismo tiempo. Facilitan la optimización para chips específicos, la cuantización para presupuestos de memoria más pequeños, la personalización para tareas de dominio y el despliegue sin una dependencia constante de la nube. A lo largo de 2025 y 2026, empresas como OpenAI, Google, Apple, Microsoft y Qualcomm han aportado pruebas de que los modelos abiertos y las pilas de IA local-first están impulsando la inteligencia nativa del dispositivo.
Los modelos abiertos ahora se construyen para el despliegue local
Un patrón recurrente a lo largo de 2025 y 2026 es que los modelos abiertos o de pesos abiertos ya no se lanzan principalmente para la experimentación en centros de datos. Se presentan como sistemas portátiles destinados a ejecutarse en aceleradores individuales, portátiles de consumo, teléfonos y dispositivos edge. Esto marca un cambio importante con respecto a la etapa anterior, cuando se asumía que los modelos más capaces vivían casi por completo en la nube.
Google captó claramente esta nueva postura cuando describió Gemma 3 como “nuestros modelos abiertos más avanzados, portátiles y desarrollados de forma responsable hasta la fecha” y afirmó que la familia fue “diseñada para ejecutarse rápidamente, directamente en los dispositivos”. OpenAI hizo una observación similar con su línea gpt-oss, presentando explícitamente estos modelos abiertos de razonamiento como diseñados para ejecutarse localmente en equipos de escritorio, portátiles y centros de datos. En otras palabras, el despliegue local es ahora un objetivo de primer nivel, no una idea secundaria.
Esta filosofía de diseño es una de las razones por las que los modelos abiertos impulsan el avance de la IA en el dispositivo con tanta eficacia. Cuando la portabilidad y el ajuste al hardware se incorporan a la hoja de ruta del modelo desde el primer día, los desarrolladores obtienen sistemas más fáciles de adaptar a las limitaciones del edge. El resultado es una vía más rápida desde el lanzamiento del modelo hasta productos prácticos nativos del dispositivo.
OpenAI acercó el razonamiento de pesos abiertos al edge
Uno de los hitos más claros llegó de OpenAI el 5 de agosto de 2025, cuando la empresa afirmó que gpt-oss-20b puede ejecutarse en dispositivos edge con solo 16 GB de memoria. Ese es un umbral importante porque hace que el razonamiento local sea práctico en una gama mucho más amplia de hardware. OpenAI también destacó el modelo para “casos de uso en el dispositivo”, inferencia local e iteración rápida sin infraestructura costosa.
El lanzamiento importa no solo por el objetivo de memoria, sino también por su licencia y posicionamiento. OpenAI publicó gpt-oss-20b bajo Apache 2.0, lo que facilita mucho más a desarrolladores y empresas experimentar, integrarlo y optimizarlo para sus propios productos. Esa combinación de pesos abiertos y viabilidad en el edge es exactamente lo que ayuda a que la IA en el dispositivo pase de las demostraciones al software desplegable.
También hay aquí un efecto de plataforma. OpenAI dijo que Microsoft estaba llevando versiones de gpt-oss-20b optimizadas para GPU a dispositivos Windows, vinculando directamente los modelos de razonamiento de pesos abiertos con endpoints generalizados. Esto convierte la IA local de un flujo de trabajo especializado en una opción informática más amplia para consumo y empresa.
La familia Gemma de Google muestra cómo los modelos abiertos se convierten en infraestructura del dispositivo
El lanzamiento de Gemma 3 por parte de Google en marzo de 2025 fue una de las señales más fuertes de que los modelos abiertos se están convirtiendo en infraestructura fundamental para la IA en el dispositivo. La familia se lanzó en tamaños de 1B, 4B, 12B y 27B, y Google dijo que los modelos estaban diseñados para ejecutarse directamente en dispositivos que van desde teléfonos y portátiles hasta estaciones de trabajo. También se incluyeron versiones cuantizadas oficiales para reducir el tamaño y las necesidades de cómputo.
La respuesta del ecosistema sugiere que estos modelos no son solo artefactos de investigación. En el momento del lanzamiento de Gemma 3, Google informó de más de 100 millones de descargas en toda la familia Gemma y más de 60.000 variantes de Gemma. Esas cifras apuntan a una base de modelos abiertos de rápido crecimiento que puede alimentar el despliegue en aplicaciones móviles, software de escritorio, sistemas embebidos y productos edge especializados.
Esa escala importa porque la IA en el dispositivo depende de algo más que la calidad del modelo. Requiere herramientas, derivados, optimización comunitaria, orientación al hardware y adaptación al dominio. Familias abiertas como Gemma crean exactamente ese tipo de ecosistema, lo que las convierte en algo más que lanzamientos de modelos individuales; se convierten en plataformas para la IA en dispositivos.
La cuantización está haciendo que modelos más potentes encajen en el hardware de consumo
Una razón por la que los modelos abiertos impulsan el avance de la IA en el dispositivo es que pueden optimizarse agresivamente para presupuestos de hardware prácticos. La cuantización se ha vuelto especialmente importante aquí. Al reducir la precisión numérica manteniendo un rendimiento útil, la cuantización hace posible ejecutar modelos capaces en dispositivos que antes habrían sido demasiado limitados.
Google ofreció un ejemplo concreto en abril de 2025 al afirmar que Gemma 3 12B en formato int4 puede ejecutarse eficientemente en GPU de portátiles como la NVIDIA RTX 4060 Laptop GPU con 8 GB de VRAM. Este es un paso significativo porque pone una clase de modelo más capaz al alcance de portátiles de consumo corrientes, en lugar de limitarla a costosas estaciones de trabajo o servidores.
En el extremo pequeño, el equipo AI Edge de Google dijo que Gemma 3 1B pesa solo 529 MB y puede ejecutarse a hasta 2.585 tokens por segundo en prefill. Google afirmó que eso es suficiente para procesar una página de contenido en menos de un segundo usando su pila de inferencia en el dispositivo. Este es el tipo de cifras de rendimiento y tamaño que hacen que la IA local parezca práctica en lugar de experimental.
Los modelos abiertos mobile-first están expandiéndose del texto a la IA multimodal
Google llevó esta tendencia aún más lejos en mayo de 2025 con la vista previa de Gemma 3n, que describió como “IA potente, eficiente y mobile-first” para teléfonos, tabletas y portátiles. La empresa afirmó que Gemma 3n comienza a responder alrededor de 1,5 veces más rápido en móviles que Gemma 3 4B mientras usa menos memoria. Eso aborda directamente dos de las mayores barreras para la IA móvil: la latencia y la presión sobre la memoria.
Igual de importante, Gemma 3n amplió la IA abierta en el dispositivo más allá del texto. Google AI Edge dijo que es el primer modelo pequeño de lenguaje multimodal en el dispositivo de Gemma, con soporte para entradas de texto, imagen, vídeo y audio. También se combina con generación aumentada por recuperación en el dispositivo y function calling, lo que permite aplicaciones edge más ricas que no siempre necesitan un viaje de ida y vuelta a la nube.
Este es un desarrollo importante para quienes crean productos. La IA en el dispositivo se vuelve mucho más valiosa cuando puede ver, oír, recuperar contexto local y activar acciones directamente en el dispositivo. Los modelos multimodales abiertos hacen que esa pila sea más personalizable y más portátil entre distintos niveles de hardware, lo que acelera la adopción en aplicaciones reales.
Apple está convirtiendo la IA en el dispositivo en una capacidad predeterminada de las aplicaciones
Las actualizaciones de Apple en 2025 mostraron cómo la IA en el dispositivo se está convirtiendo en parte de la propia pila de desarrollo del sistema operativo. La empresa dijo que los desarrolladores pueden usar el framework Foundation Models para acceder desde Swift al “modelo en el dispositivo de 3.000 millones de parámetros” detrás de Apple Intelligence, con disponibilidad en iOS 26, iPadOS 26 y macOS 26 en dispositivos compatibles. Esto da a los creadores de aplicaciones acceso directo a inteligencia local integrada, en lugar de obligarlos a ensamblarlo todo a partir de API en la nube de terceros.
El enfoque de plataforma de Apple es especialmente importante. La empresa dice que las aplicaciones que usan el framework pueden aprovechar modelos en el dispositivo y que “las funciones que creas funcionan sin conexión”. También describe este acceso como “potente, rápido, creado con privacidad y disponible incluso cuando los usuarios están sin conexión”. Ese mensaje posiciona la IA offline no como un modo de respaldo, sino como una capacidad central del software.
También hay una ventaja económica. Apple afirmó que los desarrolladores podrán crear con el framework Foundation Models usando inferencia de IA que es “gratuita” en tiempo de ejecución. Eliminar los cargos de inferencia por consulta cambia la economía del diseño de aplicaciones y facilita integrar la IA profundamente en las experiencias de software cotidianas.
La privacidad, el acceso offline y el alcance de la plataforma están cambiando la propuesta de valor
Durante años, la IA en la nube ganó por conveniencia y escala. Pero la IA en el dispositivo ofrece un conjunto diferente de beneficios que se están volviendo más atractivos a medida que mejoran los modelos abiertos. La privacidad es uno de los más sólidos. Apple repite que Apple Intelligence “comienza con el procesamiento en el dispositivo” y que muchos modelos se ejecutan completamente en el dispositivo, usando Private Cloud Compute para solicitudes más grandes en lugar de enviar todo por defecto a la nube pública.
La fiabilidad offline es otro factor importante. La estrategia Copilot+ PC de Microsoft ayudó a llevar el hardware de IA local al gran público en los ordenadores personales, y Microsoft afirma específicamente que funciones como Recall (preview), Windows Studio Effects, las traducciones de Live Captions y la superresolución en Fotos se ejecutan localmente en el dispositivo y no requieren conexión a internet. Esto normaliza la idea de que una IA útil debe seguir funcionando incluso cuando la conectividad es limitada.
A medida que estas expectativas se extienden, los modelos abiertos se vuelven aún más valiosos. Dan a proveedores y desarrolladores un mayor control sobre dónde se procesan los datos, cómo se gestiona la latencia y qué funciones siguen disponibles sin conexión. Esa combinación de privacidad, resiliencia y personalización es una razón poderosa por la que la IA local se está convirtiendo en una prioridad de plataforma.
Los fabricantes de chips y los investigadores están validando la próxima ola de IA edge
El ecosistema de hardware también se está moviendo en la misma dirección. En marzo de 2026, Qualcomm anunció Snapdragon Wear Elite y dijo que su NPU Hexagon admite modelos de hasta mil millones de parámetros en el edge, extendiendo la IA en el dispositivo a los wearables. Qualcomm también ha defendido públicamente que las arquitecturas heterogéneas centradas en la NPU son fundamentales para la IA generativa en el dispositivo, lo que refleja cómo los proveedores de chips están coevolucionando con los ecosistemas de modelos abiertos para reducir la latencia y los costes energéticos.
El trabajo académico refuerza la idea de que los modelos abiertos más pequeños pueden ser lo suficientemente útiles para agentes edge reales. Un estudio de arXiv de 2025 sobre TinyLLM informó de que los modelos de 1,3B parámetros superaron significativamente a los modelos de menos de 1B en tareas agentivas edge, alcanzando hasta un 65,74 % de precisión global y un 55,62 % de precisión en múltiples turnos con optimización híbrida. Eso sugiere una franja de capacidad realista para asistentes y agentes prácticos que se ejecutan localmente.
Otras investigaciones apuntan en la misma dirección. El artículo SHAKTI presentó un modelo pequeño de lenguaje de 2,5B parámetros optimizado para smartphones, wearables y sistemas IoT. Esto refuerza la tendencia más amplia de que los modelos abiertos compactos se diseñan cada vez más específicamente para entornos de bajos recursos, no simplemente se comprimen después del entrenamiento para su despliegue a escala de nube.
Los modelos abiertos están ampliando la gama de casos de uso de IA nativa del dispositivo
El impulso ya no se limita al chat general o a la generación de texto. En enero de 2026, Google presentó TranslateGemma, una familia abierta de traducción construida sobre Gemma 3 en tamaños de 4B, 12B y 27B para 55 idiomas, haciendo hincapié en su uso “sin importar dónde estén o qué dispositivo tengan”. Google también afirmó que el modelo 12B supera la referencia base de Gemma 3 27B en traducción mientras usa menos de la mitad de los parámetros.
Ese ejemplo es importante porque muestra que la especialización puede mejorar aún más el despliegue en dispositivos. Cuando los modelos abiertos se adaptan a una tarea específica como la traducción, pueden superar referencias generales más grandes mientras permanecen dentro de presupuestos de hardware más prácticos. Este patrón podría extenderse al resumen, la transcripción, la asistencia de programación, la comprensión visual y las herramientas empresariales específicas de dominio.
A medida que más familias abiertas apunten a capacidades concretas, la IA en el dispositivo se vuelve más modular. Los desarrolladores no siempre necesitarán un único modelo general gigantesco. En su lugar, podrán combinar modelos compactos optimizados para tareas concretas con recuperación local, entradas multimodales y function calling para ofrecer experiencias más rápidas y eficientes en hardware de consumo.
Los modelos abiertos están impulsando el avance de la IA en el dispositivo porque alinean el diseño del modelo con el hardware del mundo real, las necesidades de los desarrolladores y las limitaciones de producto. El gpt-oss-20b de OpenAI muestra que el razonamiento de pesos abiertos puede encajar en dispositivos edge de 16 GB. La línea Gemma de Google demuestra que los modelos abiertos ligeros, cuantizados y mobile-first pueden escalar hasta un gran ecosistema. Apple, Microsoft y Qualcomm están ampliando las plataformas de software y hardware que hacen que la inferencia local sea algo normal en lugar de excepcional.
La historia más importante es que los modelos abiertos están cambiando dónde puede vivir la IA. En lugar de asumir que la inteligencia debe alquilarse desde una nube lejana, la industria considera cada vez más los portátiles, teléfonos, PC, wearables y sistemas embebidos como endpoints de IA de primer nivel. Ese cambio no eliminará la IA en la nube, pero hará que la inteligencia local, privada, rápida y personalizable sea mucho más común, y los modelos abiertos están en el centro de esa transición.