El razonamiento sigue implementándose en más productos de OpenAI. Primero lo hizo en sus chatbots y ahora también en sus modelos de generación de imágenes, lo que permite obtener una variante multimodal nativa capaz de generar resultados "fotorrealistas, precisos y exactos".
Según la compañía, este nuevo generador de imágenes está integrado directamente en GPT-4o, lo que permite la creación de contenido "útil". A diferencia de otros modelos actuales, que pueden crear escenas "surrealistas e impresionantes", OpenAI afirma que estos tienen dificultades para generar imágenes cotidianas con los elementos precisos necesarios para transmitir un significado correcto y utilizar los símbolos adecuados.
Una de las principales características de este nuevo modelo dentro de GPT-4o es su capacidad para representar texto con precisión y seguir instrucciones detalladas. También aprovecha el conocimiento y contexto del chat, lo que le permite transformar imágenes cargadas por el usuario o utilizarlas como inspiración visual.
La compañía señala que esto permite generar imágenes de manera exacta, con una representación adecuada de los elementos visuales, logrando resultados "prácticos, precisos y potentes".
Las características de este generador de imágenes
OpenAI explica que su modelo ha sido entrenado con una distribución conjunta de imágenes y texto en línea, lo que le permite comprender no solo la relación entre imágenes y lenguaje, sino también cómo interactúan entre sí. Además, gracias a un "entrenamiento posterior intensivo", el modelo ha desarrollado una "fluidez visual sorprendente", lo que le permite generar imágenes útiles, coherentes y contextuales.
Gracias …