Groq reinventa la IA con su procesador LPU ultrarrápido

Al utilizar ChatGPT, especialmente el modelo GPT-4, es posible que haya notado la lentitud con la que el modelo responde a las consultas. Por no hablar de los asistentes de voz basados en Modelo de lenguaje grande, como la función Voice Chat de ChatGPT o la reciente versión de Gemini, que reemplazó al Asistente de Google en los teléfonos inteligentes Android, que son aún más lentos debido a la alta latencia de los LLM. Pero todo eso debería cambiar pronto, gracias al nuevo y potente motor de inferencia LPU (Unidad de procesamiento del lenguaje) por Groq.

En un sector tecnológico en constante evolución, la velocidad y la eficiencia del procesamiento informático están en el centro de las preocupaciones, particularmente en el campo de la inteligencia artificial (IA).

En este sentido, la empresa Groq, cofundada por Jonathan Ross, ex ingeniero de Google, es pionera con su nuevo motor de inferencia LPU (Unidad de procesamiento del lenguaje), prometiendo revolucionar la velocidad de procesamiento de modelos de lenguaje..

A diferencia de la IA conversacional ChatGPT de OpenAI, que se basa en chips Nvidia, la LPU de Groq destaca por su capacidad de generar hasta 500 tokens por segundo para un modelo de 7 mil millones de parámetros y 250 tokens por segundo para un modelo de 70 mil millones. Este rendimiento supera ampliamente al de las soluciones basadas en GPU de Nvidia, que oscilan entre 30 y 60 tokens por segundo.

La historia de Groq comienza en 2016, cuando Jonathan Ross dejó Google para fundar su propia empresa, llevándose consigo a parte del equipo que desarrolló la primera TPU (Unidad de procesamiento tensorial). El enfoque innovador de Groq se basa en el desarrollo de software antes del diseño de hardware, logrando el llamado rendimiento “determinista”, esencial para obtener resultados rápidos, precisos y predecibles.

La LPU Groq: una arquitectura a medida

La arquitectura LPU de Groq, análoga a la de un ASIC (circuito integrado de aplicación específica), está optimizada para el procesamiento secuencial de datos en Large Language Modal (LLM), a diferencia de las CPU y GPU tradicionales. Esta especialización, combinada con un compilador hecho a medida, reduce significativamente la latencia, proporcionando mayor eficiencia y rendimiento.

Aunque está diseñado principalmente para la inferencia de IA, La LPU de Groq no es adecuada para entrenar modelos debido a la falta de memoria de alto ancho de banda (HBM). Sin embargo, su eficiencia energética y su capacidad para trabajar con modelos de difusión lo convierten en una solución atractiva para una variedad de aplicaciones, incluida la generación de imágenes de alta resolución en menos de un segundo.

Aunque no lo he probado, las LPU Groq también funcionan con modelos de transmisión, no solo con modelos de lenguaje. Según la demostración, puede generar diferentes estilos de imágenes a 1024 píxeles en menos de un segundo. Es bastante notable.

Groq vs Nvidia: ¿qué dice Groq?

En su informe, Groq afirma que sus LPU son escalables y pueden conectarse entre sí mediante una interconexión óptica entre 264 chips. Es posible escalarlos usando conmutadores, pero esto aumentará la latencia. Según Ross, la compañía está desarrollando clústeres que pueden abarcar 4.128 chips que estarán disponibles comercialmente en 2025 y que se desarrollan en el nodo de proceso de 4 nm de Samsung.

en un punto de referencia Realizada por Groq utilizando 576 LPU en un modelo 70B Llama 2, la inferencia de IA se completó en una décima parte del tiempo que tomó un grupo de GPU Nvidia H100.

Además, las GPU de Nvidia consumieron de 10 a 30 julios de energía para generar tokens en respuesta, mientras que Groq solo consumió de 1 a 3 julios. En resumen, la compañía afirma que las LPU Groq ofrecen 10 veces más velocidad para tareas de inferencia de IA a una décima parte del costo de las GPU Nvidia.

Un futuro prometedor para la interacción instantánea con los sistemas de IA

Con la implementación de las LPU de Groq, los usuarios pueden esperar interacciones casi instantáneas con los sistemas de IA, allanando el camino para aplicaciones multimodales innovadoras. La disponibilidad de acceso API por parte de Groq presagia una mejora significativa en el rendimiento de los modelos de IA en un futuro próximo.

La iniciativa de Groq en el espacio del hardware de inteligencia artificial representa un importante paso adelante y promete interacciones más rápidas y fluidas con tecnologías de inteligencia artificial. A medida que el mundo tecnológico continúa evolucionando, las contribuciones de Groq bien pueden marcar un punto de inflexión en la forma en que interactuamos con las máquinas.