Apple ha presentado un nuevo modelo de Inteligencia Artificial generativa: MGIE, un proyecto que permite a los usuarios, con lenguaje sencillo, no solo crear imágenes, sino también editar contenidos como si usaran un software de edición de fotografías, como Photoshop.
Este modelo fue desarrollado tanto por Apple como por la Universidad de California en Santa Bárbara, siendo capaz de recortar, cambiar el tamaño, voltear o incluso agregar filtros a las imágenes mediante instrucciones simples de texto.
Qué es MGIE
MGIE es un extenso modelo de lenguaje multimodal (MLLM) que se centra en la edición de imágenes basada en instrucciones, es decir, un sistema capaz de integrar y procesar datos, como texto, imágenes y sonido, interpretando los comandos del usuario.
Como resultado, el modelo puede manejar varios aspectos de edición, similar a cualquier procesador de imágenes, realizando trabajos de optimización global de fotografías y edición local de contenido.
En cada sección de la imagen, se aprecian dos imagenes similares, la primera original y la segunda procesada por MGIE. En la parte superior de cada fotografía se muestra la indicación del usuario y en el lado izquierdo de cada resultado la forma en que procesa la instrucción la el MLLM.
La IA lleva a cabo el proceso de dos formas: primero, utiliza el modelo para convertir las entradas del usuario en instrucciones expresivas, concisas y claras con una orientación explícita para el proceso de edición.
Esto …