Actualidad

Groq presenta LLaVA v1.5 7B: el modelo de IA multimodal más rápido del mercado

Publicado el 05/09/2024
Por D C. Fernández

Groq ha lanzado su nuevo modelo de inteligencia artificial multimodal, LLaVA v1.5 7B, que promete revolucionar el campo de la IA con su capacidad para comprender tanto imágenes como texto, y que funciona a una velocidad cuatro veces superior a la de GPT-4o de OpenAI.

LLaVA v1.5 7B no solo puede responder preguntas sobre el contenido de imágenes, sino que también genera descripciones de las mismas y mantiene conversaciones que integran texto, voz y fotos. Este innovador modelo tiene aplicaciones potenciales en diversos campos, como la inspección visual de productos, la gestión de inventarios y la creación de descripciones de imágenes para personas con discapacidad visual.

Esta es la primera incursión de Groq en el ámbito de los modelos multimodales y la velocidad de procesamiento mejorada en imágenes, audio y texto podría dar lugar a asistentes de IA mucho más eficientes. Actualmente, Groq ofrece LLaVA v1.5 7B de forma gratuita en «Modo Vista Previa» para que los desarrolladores puedan experimentar con él.

El modelo LLaVA (Large Language and Vision Assistant) se basa en CLIP de OpenAI y una versión afinada del modelo Llama 2 7B de Meta. Gracias a la sintonización de instrucciones visuales, LLaVA v1.5 7B es capaz de realizar tareas como responder preguntas visuales, generar subtítulos para imágenes, reconocer texto en imágenes y mantener diálogos multimodales. En septiembre de 2023, LLaVA v1.5 logró un rendimiento de vanguardia en siete benchmarks, incluidos cinco de evaluación académica de preguntas visuales (VQA), demostrando su excepcional capacidad para comprender y generar texto a partir de entradas visuales.

Las aplicaciones de LLaVA v1.5 7B son amplias y variadas. En el sector minorista, puede utilizarse para supervisar los niveles de inventario y detectar productos agotados a partir de imágenes de estanterías. En plataformas de redes sociales, puede generar descripciones textuales de imágenes, facilitando su comprensión a usuarios con discapacidad visual. Los sistemas de diálogo multimodal, como los chatbots de servicio al cliente, pueden emplear el modelo para interactuar con los usuarios utilizando tanto texto como imágenes, proporcionando respuestas más completas sobre productos.

LLaVA v1.5 7B también promete beneficios específicos en diversas industrias. En la línea de producción, puede ayudar a los ingenieros de control de calidad a automatizar la inspección de productos y detectar defectos. En el sector financiero, puede auditar documentos como facturas y recibos, automatizando tareas contables. En el comercio minorista, puede analizar imágenes de productos para automatizar la gestión de inventarios y la recomendación de productos. Y en el ámbito educativo, puede examinar imágenes educativas para facilitar un aprendizaje más efectivo.

GroqCloud ahora soporta tres modalidades: imagen, audio y texto, y los desarrolladores pueden comenzar a experimentar con LLaVA v1.5 7B en la Consola de Desarrolladores de GroqCloud. Esta incorporación abre nuevas posibilidades para la creación de aplicaciones innovadoras que integran inputs visuales, auditivos y textuales, permitiendo a las empresas aprovechar al máximo el potencial de la IA multimodal.

Fuente: Noticias Inteligencia Artificial