Guías y Recursos

ChatGPT da un salto evolutivo: Ahora puede ver, oír y hablar

Publicado el 28/09/2023
Por D C. Fernández

La era de los asistentes virtuales ha alcanzado un nuevo nivel con las recientes capacidades de voz e imagen implementadas en ChatGPT. Estas características, que comenzarán a desplegarse en las próximas semanas, prometen revolucionar la forma en que interactuamos con la tecnología.

Conversaciones por Voz con ChatGPT

Los usuarios ahora pueden utilizar la voz para interactuar de forma dinámica con su asistente. Ya sea mientras se desplazan, solicitando una historia para dormir o resolviendo un debate en la cena. La activación de esta función es sencilla, basta con dirigirse a «Configuración» → «Nuevas características» en la aplicación móvil y activar las conversaciones por voz.

El núcleo de esta habilidad de voz es un modelo de texto a voz, capaz de generar audio con calidad humana a partir de texto y muestras breves de habla. Esta innovación se ha logrado gracias a la colaboración con actores de voz profesionales y el uso de Whisper, un sistema de reconocimiento de voz de código abierto desarrollado por OpenAI.

Interacción mediante Imágenes

La capacidad de ChatGPT de entender y procesar imágenes abre un abanico de posibilidades. Desde diagnosticar problemas con electrodomésticos hasta analizar gráficos complejos para datos laborales. La herramienta de dibujo en la aplicación permite a los usuarios resaltar áreas específicas de una imagen para guiar a su asistente.

Este entendimiento visual se potencia mediante los modelos GPT-3.5 y GPT-4, que combinan habilidades lingüísticas con la interpretación de imágenes.

Despliegue Gradual y Responsable

OpenAI, consciente de las posibilidades y desafíos que estas capacidades avanzadas pueden presentar, está adoptando un enfoque gradual en su implementación. El nuevo sistema de voz, por ejemplo, tiene un potencial inmenso en aplicaciones creativas y de accesibilidad. Sin embargo, también presenta riesgos, como la posibilidad de que actores malintencionados utilicen la tecnología para fines fraudulentos.

En el ámbito visual, OpenAI ha tomado medidas para limitar la capacidad de ChatGPT de analizar y hacer declaraciones directas sobre personas, garantizando así la privacidad de los usuarios. El trabajo colaborativo con aplicaciones como Be My Eyes ha ayudado a definir usos y limitaciones de esta herramienta visual.

La transparencia es esencial. Por ello, OpenAI aclara que, aunque ChatGPT es competente en la transcripción de texto en inglés, su rendimiento puede no ser óptimo con otros idiomas, especialmente aquellos con escritura no romana.

Acceso Ampliado en el Horizonte

Las capacidades de voz e imagen se implementarán para los usuarios Plus y Enterprise en las próximas dos semanas, y se espera que estén disponibles para otros grupos, incluidos los desarrolladores, poco después.

Con estas innovaciones, ChatGPT se posiciona no solo como un asistente de texto, sino como una herramienta multimodal capaz de ver, oír y responder a las necesidades cambiantes de sus usuarios.