OpenAI presenta GPT-5.4

Author auto-post.io
03-05-2026
9 min. de lectura
Resumir este artículo con:
OpenAI presenta GPT-5.4

El 5 de marzo de 2026, OpenAI anunció “Presentando GPT‑5.4”, posicionándolo como un gran avance para las personas que usan IA para realizar trabajo real: redacción, análisis, programación y tareas impulsadas por herramientas que abarcan múltiples aplicaciones y archivos. El lanzamiento se despliega en ChatGPT, la API y Codex, y OpenAI lo describe como el primer “modelo principal de razonamiento” que también incorpora las capacidades de programación de GPT‑5.3‑Codex.

Más allá de las afirmaciones sobre capacidades principales, la cobertura de OpenAI y la de terceros apunta a un tema práctico: menos errores, mejores entregables a largo plazo y un rendimiento más sólido en puntos de referencia de uso de ordenador y trabajo del conocimiento. En otras palabras, GPT‑5.4 se presenta menos como una novedad y más como una mejora de eficiencia para flujos de trabajo profesionales.

1) Lo que OpenAI lanzó realmente el 5 de marzo de 2026

El anuncio de lanzamiento de OpenAI hace que GPT‑5.4 sea notable por cómo consolida fortalezas que a menudo estaban divididas entre variantes de “razonamiento” y de “programación”. OpenAI lo llama el primer modelo principal de razonamiento que incorpora las capacidades de programación de GPT‑5.3‑Codex, con el objetivo de reducir la compensación entre pensamiento profundo y generación de código de alta calidad.

La disponibilidad es amplia: OpenAI dice que el despliegue abarca ChatGPT, la API y Codex. Esto importa porque los equipos a menudo prototipan en ChatGPT, luego pasan al producto vía la API y, finalmente, confían en flujos de trabajo al estilo Codex para programación a escala de repositorios; GPT‑5.4 está pensado para sentirse coherente en esas superficies.

Los materiales de OpenAI Academy también aclaran la oferta. Junto con GPT‑5.3 Instant (enmarcado como rápido, para el día a día), GPT‑5.4 “Thinking” apunta a flujos de trabajo profesionales difíciles y está disponible en ChatGPT, la API y Codex; GPT‑5.4 Pro se posiciona como la opción de mayor capacidad para usuarios Pro y Enterprise, así como para la API y Codex.

2) Mejoras en factualidad: menos afirmaciones falsas, menos respuestas con errores

OpenAI hace afirmaciones concretas sobre factualidad frente a GPT‑5.2, usando un conjunto de datos de indicaciones desidentificadas donde los usuarios marcaron errores factuales. En esa evaluación, OpenAI informa que las afirmaciones individuales tienen un 33% menos de probabilidad de ser falsas con GPT‑5.4.

La compañía también informa una métrica a nivel de respuesta: las respuestas completas tienen un 18% menos de probabilidad de contener cualquier error en comparación con GPT‑5.2. Esta distinción, nivel de afirmación frente a nivel de respuesta, sugiere que GPT‑5.4 está mejorando tanto la corrección “micro” de las afirmaciones como la fiabilidad “macro” de una respuesta de extremo a extremo.

Para el uso profesional, estos números son significativos porque muchos flujos de trabajo fallan no por un solo hecho inventado, sino porque una suposición incorrecta contamina una hoja de cálculo, un borrador de política o un plan técnico. El planteamiento de OpenAI implica que GPT‑5.4 está orientado a reducir esas fallas en cascada en lugar de solo mejorar el estilo o la fluidez.

3) Rendimiento en trabajo del conocimiento: GDPval y entregables que parecen trabajos reales

OpenAI destaca una evaluación de trabajo del conocimiento llamada GDPval, que cubre 44 ocupaciones y tareas como presentaciones de ventas, hojas de cálculo, cronogramas, diagramas y videos cortos. En este punto de referencia, GPT‑5.4 “gana o empata” en el 83,0% de las comparaciones, frente al 70,9% de GPT‑5.2.

Lo notable es la amplitud de los resultados: no solo respuestas de texto, sino artefactos en múltiples formatos que las personas realmente envían a colegas o clientes. Esto coincide con el posicionamiento de producto de OpenAI para GPT‑5.4 como un modelo fronterizo optimizado para el trabajo profesional en documentos, hojas de cálculo y presentaciones.

Voces externas hacen eco del enfoque en “entregables”. En los materiales de lanzamiento, el CEO de Mercor, Brendan Foody, aparece citado diciendo: “GPT‑5.4 es el mejor modelo que hemos probado… Se destaca creando entregables a largo plazo como presentaciones, modelos financieros y análisis legales…”. TechCrunch también informa esta declaración, añadiendo que se describe como más rápido y de menor costo que algunos modelos frontera competidores.

4) Hojas de cálculo y presentaciones: ganancias medibles en artefactos empresariales

OpenAI informa una mejora sustancial en un punto de referencia interno de modelado de hojas de cálculo diseñado alrededor de tareas al estilo de analistas junior de banca de inversión. La puntuación media se indica como 87,3% para GPT‑5.4 frente a 68,4% para GPT‑5.2, lo que sugiere menos errores en fórmulas, supuestos más coherentes o mejor precisión de modelado de extremo a extremo.

La calidad de las presentaciones también se evalúa directamente. OpenAI dice que los evaluadores humanos prefirieron las presentaciones de GPT‑5.4 el 68,0% de las veces frente a GPT‑5.2, basándose en criterios que incluyen estética, variedad y uso de generación de imágenes.

Tomadas en conjunto, estas métricas apuntan a un campo de batalla competitivo específico: no solo “escribe un párrafo”, sino “produce un artefacto que alguien realmente enviaría”. Si tu flujo de trabajo incluye convertir notas desordenadas en diapositivas o traducir lógica empresarial en una hoja de cálculo, OpenAI está señalando a GPT‑5.4 como un borrador inicial más fiable y, cada vez más, como un borrador casi final.

5) Agentes y uso del ordenador: OSWorld, WebArena y más allá

Uno de los aspectos más llamativos de los puntos de referencia es OSWorld-Verified, una evaluación de uso de ordenador. OpenAI informa GPT‑5.4 con una tasa de éxito del 75,0% frente al 47,3% de GPT‑5.2, y señala que esto supera el rendimiento humano informado como 72,4% (citando el artículo de OSWorld).

Para el uso de navegador, WebArena-Verified muestra una mejora menor: 67,3% para GPT‑5.4 frente a 65,4% para GPT‑5.2. OpenAI también informa una tasa de éxito “Online-Mind2Web solo con capturas de pantalla” del 92,8%, contrastada con el “Agent Mode de ChatGPT Atlas” en 70,9%, enfatizando el progreso en tareas de navegación basadas en capturas de pantalla.

Estos resultados se corresponden con el posicionamiento más amplio de OpenAI de GPT‑5.4 como un modelo para “flujos de trabajo orientados a agentes”, capaz de planificar y ejecutar en herramientas y entornos de software en lugar de simplemente responder preguntas. En la práctica, eso podría significar acciones multietapa más fiables: encontrar información, actualizar un documento, rellenar un formulario o ejecutar un proceso repetible con llamadas a herramientas e interacciones con la interfaz de usuario.

6) Evaluaciones de programación y herramientas: ganancias constantes, además de navegación y herramientas más fuertes

En SWE-Bench Pro (Público), OpenAI informa GPT‑5.4 en 57,7%, comparado con 55,6% para GPT‑5.2. Es una mejora modesta, pero se alinea con el mensaje de lanzamiento de que GPT‑5.4 fusiona el razonamiento principal con la capacidad de codificación al nivel de Codex en lugar de perseguir una única métrica de programación a costa de todo lo demás.

Las evaluaciones centradas en herramientas y recuperación muestran diferencias mayores. BrowseComp se reporta en 82,7% para GPT‑5.4 frente a 65,8% para GPT‑5.2, lo que indica un mejor rendimiento en tareas donde la navegación, la selección de fuentes e integrar la información encontrada importan.

OpenAI también informa Toolathlon en 54,6% para GPT‑5.4 frente a 46,3% para GPT‑5.2. Interpretado de forma práctica, esto sugiere una mejor orquestación: elegir la herramienta adecuada, invocarla correctamente e incorporar los resultados de forma coherente, requisitos centrales para los flujos de trabajo “orientados a agentes” en entornos profesionales.

7) Detalles de la API: ventana de contexto, modalidades, endpoints e IDs de modelo

Según la documentación de la API de OpenAI (instantánea fechada el 5 de marzo de 2026), GPT‑5.4 admite una ventana de contexto de 1,050,000 tokens con una salida máxima de 128,000 tokens. La misma documentación lista un corte de conocimiento del 31 de agosto de 2025, lo cual es importante para los equipos que requieren conciencia de eventos posteriores al corte (a menudo abordado mediante navegación o herramientas de recuperación en lugar del preentrenamiento únicamente).

En términos de modalidades, GPT‑5.4 acepta texto e imagen como entrada y produce texto como salida. La disponibilidad abarca múltiples superficies de API: Responses, Chat Completions, Realtime, Assistants y Batch, con soporte de herramientas listado para capacidades como búsqueda web, búsqueda en archivos, code interpreter, uso de ordenador, MCP y más.

Para la integración, OpenAI lista tanto un alias como una instantánea fijada: `gpt-5.4` y `gpt-5.4-2026-03-05`. Esto da a los desarrolladores la elección típica entre el comportamiento “más reciente” vía el alias y la reproducibilidad vía la instantánea fechada.

8) Precio y consideraciones operativas: cuánto cuesta ejecutar GPT‑5.4

Los precios de OpenAI (según rastreo del 5 de marzo de 2026) listan las tarifas estándar de la API de GPT‑5.4 en $2.50 por 1M de tokens de entrada, $0.25 por 1M de tokens de entrada en caché y $15.00 por 1M de tokens de salida. Para muchas cargas de trabajo de producción, el costo de salida domina, por lo que controlar la verbosidad y usar salidas estructuradas puede tener un impacto presupuestario material.

La documentación del modelo de OpenAI también señala precios por lotes y precios para entrada en caché, fomentando patrones como reutilizar prompts del sistema estables, andamiajes de recuperación o texto de políticas compartido. Eso importa cuando operas a escala y quieres curvas de costo predecibles en tareas repetidas.

Hay matices adicionales de precios para contextos muy grandes: los prompts con más de 272K tokens de entrada para modelos con contexto de 1.05M se facturan al 2× en entrada y 1.5× en salida para toda la sesión, y el procesamiento regional conlleva un recargo del +10%. En la práctica, los equipos que usan sesiones cercanas a mega-contexto (para grandes bases de código o archivos de proyectos de varios trimestres) querrán límites, fragmentación, recuperación y caché, para evitar facturas sorpresa.

GPT‑5.4 llega como un lanzamiento de consolidación: un modelo que OpenAI dice combina razonamiento principal con codificación al nivel de Codex y está diseñado para trabajo agente a través de herramientas. El anuncio está respaldado por afirmaciones de tasas de error factual más bajas (33% menos de afirmaciones individuales falsas y 18% menos de respuestas que contienen errores frente a GPT‑5.2) y por mejoras en puntos de referencia que apuntan a entregables profesionales, hojas de cálculo, presentaciones y tareas de trabajo del conocimiento.

Al mismo tiempo, la historia práctica para usuarios y desarrolladores trata de escalar flujos de trabajo: una ventana de contexto de 1,050,000 tokens, entradas de texto+imagen, amplia cobertura de endpoints y una economía de producción más clara vía opciones de caché y batch. Si la promesa de GPT‑5.4 se mantiene en despliegues reales, no solo responderá mejor, sino que completará más del trabajo que de otro modo realizarías en documentos, navegadores e interfaces de software.

¿Listo para comenzar?

Empieza a automatizar tu contenido hoy

Únete a los creadores de contenido que confían en nuestra IA para generar artículos de blog de calidad y automatizar su flujo de publicación.

No se requiere tarjeta de crédito
Cancela en cualquier momento
Acceso instantáneo
Resumir este artículo con:
Compartir este artículo :