OpenAI acaba de anunciar la integración de la funcionalidad de generación de imágenes directamente en ChatGPT a partir de hoy: los usuarios que recurran al modelo multimodal GPT-4o podrán generar imágenes dentro del mismo, en lugar de (como venía ocurriendo hasta ahora) utilizar ChatGPT como mero intermediario del modelo especializado DALL-E 3.
El cambio está disponible para todos los usuarios de ChatGPT (en los planes Plus, Pro, Team y gratuito), así como en la plataforma de vídeo Sora, y próximamente vía API para desarrolladores.
¿Qué es GPT-4o y qué lo hace diferente?
Lanzado inicialmente en mayo de 2024, GPT-4o es un modelo "omnimodal" —capaz de procesar y generar texto, imágenes, audio y vídeo— entrenado para entender e interrelacionar múltiples formatos de información... sin embargo, su capacidad para generar imágenes no se encontraba habilitada para el público general.
¿Qué ha cambiado al dejar atrás DALL·E 3?
Anteriormente, ChatGPT utilizaba DALL·E 3 como generador de imágenes, un modelo de difusión que reconstruía imágenes eliminando ruido desde los píxeles. GPT-4o rompe con esta técnica y adopta un enfoque autorregresivo, generando imágenes de forma secuencial (de izquierda a derecha y de arriba a abajo), lo cual permite una mayor coherencia y precisión, especialmente al integrar texto o múltiples objetos en una escena.
En Genbeta
Sora nos acerca más a la 'IA general'... pero no por generar vídeos, sino por simular mundos
Entonces... ¿DALL·E ha muerto? - Aunque GPT-4o reemplaza …