Notasbit

Las mejores noticias de tecnología en un sólo lugar

Publicado por: Teknófilo

Publicado en: 25/09/2023 15:58

Escrito por: Teknófilo

ChatGPT se vuelve multisensorial: Ahora puede ver, escuchar y hablar

En un movimiento inesperado, OpenAI ha anunciado que ChatGPT ahora soportará tanto instrucciones de voz de los usuarios como carga de imágenes.
De este modo, los usuarios podrán mantener conversaciones con ChatGPT — de forma similar a como hablan con Alexa de Amazon, Siri de Apple o Google Assistant — y pedir al bot que analice y reaccione ante cualquier imagen que suban.
Los diálogos por voz solo estarán disponibles en las aplicaciones móviles ChatGPT de OpenAI para Android e iOS. La entrada de imágenes estará disponible en todas las aplicaciones móviles y de escritorio.
OpenAI afirma que las funciones han sido desarrolladas por sus propios modelos de reconocimiento de voz, síntesis y visión, y estarán disponibles para las personas suscritas a ChatGPT Plus y Enterprise en las próximas dos semanas. Otros grupos de usuarios, incluidos los desarrolladores, dispondrán de estas funciones poco después, según la empresa.

Así funcionará el nuevo ChatGPT
La empresa ofrece estas capacidades con modelos de voz a texto y de texto a voz que funcionan casi en tiempo real, convirtiendo la voz de entrada en texto, introduciendo ese texto en el GPT-4, el gran modelo de lenguaje (LLM) subyacente de OpenAI, para ofrecer una respuesta y, por último, volviendo a convertir ese texto en la voz seleccionada por el usuario.

Mientras que la voz añade capacidades conversacionales a ChatGPT, el soporte de imágenes le confiere el poder de Google Lens, permitiendo simplemente hacer clic en una foto y añadirla al chat con una pregunta potencial.
ChatGPT analizará la …

Lee toda la nota original aquí