Nueva IA puede escuchar mientras habla y todo en tiempo real

Un grupo de investigadores de inteligencia artificial ha desarrollado un nuevo Modelo de Lenguaje que Escucha mientras Habla (LSLM, por sus siglas en inglés), que es capaz de escuchar y hablar simultáneamente, avanzando así en las conversaciones interactivas basadas en voz en tiempo real.

El nuevo modelo, denominado Listening-while-Speaking Language Model (LSLM), permite la modelización full-duplex en modelos de lenguaje interactivo basado en voz. Este innovador sistema utiliza un decodificador basado en tokens únicamente para la síntesis de voz y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real.

El sistema puede detectar el cambio de turno en tiempo real y responder a las interrupciones, una característica clave de la conversación natural. En los experimentos, el modelo demostró ser robusto al ruido y sensible a diversas instrucciones.

Mientras que el reciente modo de voz avanzado de OpenAI para ChatGPT nos acerca a conversaciones realistas con IA, el LSLM da un paso más allá al permitir que la IA procese el habla entrante mientras habla. Esto podría revolucionar las interacciones humano-IA, haciendo que las conversaciones con máquinas se sientan verdaderamente naturales y receptivas.

Un Modelo de Lenguaje que Puede Escuchar Mientras Habla

El diálogo es la manera más natural de interacción entre humanos y computadoras (HCI). Los recientes avances en los modelos de lenguaje basado en voz han mejorado significativamente la inteligencia conversacional de las IA. Sin embargo, estos modelos están limitados a conversaciones por turnos, careciendo de la capacidad de interactuar en tiempo real con los humanos, por ejemplo, al ser interrumpidos cuando el contenido generado no es satisfactorio. Para abordar estas limitaciones, se ha explorado la modelización full-duplex (FDM) en modelos de lenguaje interactivo (iSLM), centrándose en mejorar la interacción en tiempo real y, más explícitamente, explorando la capacidad esencial de interrupción.

Se ha introducido un nuevo diseño de modelo, denominado listening-while-speaking language model (LSLM), un sistema de extremo a extremo equipado con canales tanto de escucha como de habla. El LSLM emplea un decodificador basado en tokens únicamente para la síntesis de voz y un codificador de aprendizaje auto-supervisado en streaming para la entrada de audio en tiempo real. El LSLM fusiona ambos canales para la generación autorregresiva y detecta el cambio de turno en tiempo real.

Estrategias de Fusión y Resultados Experimentales

Se exploraron tres estrategias de fusión: fusión temprana, fusión media y fusión tardía, con la fusión media logrando un equilibrio óptimo entre la generación de voz y la interacción en tiempo real. Dos configuraciones experimentales, FDM basado en comandos y FDM basado en voz, demostraron la robustez del LSLM frente al ruido y su sensibilidad a diversas instrucciones.

Los resultados destacan la capacidad del LSLM para lograr una comunicación dúplex con un impacto mínimo en los sistemas existentes. Este estudio tiene como objetivo avanzar en el desarrollo de sistemas de diálogo interactivo basados en voz, mejorando su aplicabilidad en contextos del mundo real.

Futuro de las Interacciones Humano-IA

La implementación de la IA LSLM promete una evolución significativa en la forma en que interactuamos con la tecnología. La capacidad de procesar y responder simultáneamente a la voz humana en tiempo real puede llevar a aplicaciones revolucionarias en diversos campos, desde asistentes virtuales más inteligentes hasta robots colaborativos en entornos industriales.

Este avance tecnológico no solo mejora la eficiencia y la naturalidad de las interacciones, sino que también abre nuevas posibilidades para la colaboración entre humanos y máquinas. A medida que continuamos explorando y perfeccionando estas tecnologías, el futuro de la inteligencia artificial en el ámbito conversacional se vislumbra lleno de potencial y oportunidades para transformar nuestras vidas diarias.

Para más información, puedes visitar el sitio oficial del proyecto LSLM y leer el documento de investigación completo.

Últimos artículos

Scroll al inicio