Usar inteligencia artificial para realizar tareas en páginas web
Esa es la idea de OpenAI con Operator, un nuevo agente capaz de ejecutar tareas de manera independiente a partir de las indicaciones de los usuarios, como escribir, hacer clics o desplazarse por una interfaz de un navegador.Entre las tareas que este agente puede realizar se encuentran completar formularios, realizar pedidos de comida e incluso crear memes. Para lograrlo, utiliza las mismas interfaces que las personas emplean en su día a día, según explica la compañía.
Operator funciona gracias a un modelo denominado Computer Using Agent (CUA), el cual combina las capacidades de visión de GPT-4 y el razonamiento avanzado con aprendizaje por refuerzo.
Esta tecnología le permite interactuar con interfaces gráficas de usuario existentes. Dicho de manera sencilla, es capaz de utilizar directamente los botones, menús y campos de texto que aparecen en las pantallas.
El funcionamiento detrás de CUA
El agente procesa los sitios mediante capturas de pantalla y puede realizar cualquier acción accesible mediante un mouse y teclado, sin necesidad de integraciones específicas con APIs.
Además, tiene la capacidad de autocorregir errores y superar desafíos específicos. Si se encuentra con un obstáculo, devuelve el control al usuario para resolver el problema.
Así funciona Operator
Para utilizarlo, basta con describir la tarea deseada como si se tratara de un prompt, y Operator se encarga del resto. Aunque la IA actúa de forma autónoma, …