Red Hat, el proveedor líder mundial de soluciones open source, anunció hoy el lanzamiento de llm-d, un nuevo proyecto open source que responde a la necesidad más crítica del futuro de la IA generativa (gen AI): la inferencia a gran escala. Al aprovechar tecnologías de inferencia innovadoras para la IA generativa a gran escala, a llm-d lo impulsa una arquitectura nativa de Kubernetes, una inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con reconocimiento de IA, lo cual permite que grandes nubes de inferencia de modelos de lenguaje de gran tamaño (LLM) cumplan con los objetivos de nivel de servicio (SLO) en producción más exigentes.
Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d sienta las bases para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida ampliada, al admitir cualquier modelo y acelerador en cualquier entorno de nube y ayudar a hacer realidad la visión del potencial ilimitado de la IA.
Brian Stevens
senior vice president and AI CTO, Red Hat
Si bien el entrenamiento sigue siendo un elemento fundamental, el verdadero impacto de la IA generativa depende de una inferencia más eficiente y escalable, ya que es el motor que transforma los modelos de IA en información práctica y experiencias de los usuarios. Según Gartner1, “Para 2028, a medida que el mercado madure, más del 80 % de los aceleradores de cargas de trabajo de los centros de datos se implementarán específicamente para la inferencia, en lugar de para su uso en entrenamiento”. Esto pone de relieve que el futuro de la IA generativa reside en su capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más grandes y sofisticados limita la viabilidad de la inferencia centralizada y amenaza con obstaculizar la innovación en IA mediante costos prohibitivos y una latencia paralizante.
llm-d responde a la necesidad de una inferencia de IA generativa escalable
Red Hat y sus partners del sector afrontan este desafío directamente con llm-d, un proyecto visionario que potencia el poder de vLLM para trascender las limitaciones de un solo servidor y posibilitar la producción a gran escala para la inferencia de IA. llm-d integra funciones de inferencia avanzadas en las actuales infraestructuras de TI empresariales gracias a la probada capacidad de orquestación de Kubernetes. Esta plataforma unificada permite a los equipos de TI satisfacer las diversas demandas de servicio de las cargas de trabajo críticas para el negocio y, al mismo tiempo, implementa técnicas innovadoras para maximizar la eficiencia y minimizar radicalmente el costo total de propiedad (TCO) asociado a los aceleradores de IA de alto rendimiento.
llm-d ofrece un poderoso conjunto de innovaciones, entre las cuales se destacan las siguientes:
- vLLM, que rápidamente se ha convertido en el servidor de inferencia open source estándar de facto, que brinda soporte desde el Día 0 a modelos de frontera emergentes y a una amplia lista de aceleradores, que ahora incluyen unidades de procesamiento de tensor (TPU) de Google Cloud.
- Desagregación de prellenado y decodificación, para separar las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
- Descarga de caché KV (clave-valor), basada en LMCache, mueve la carga de la memoria caché KV de la memoria de la GPU a un almacenamiento estándar de mayor volumen y menor costo, como la memoria de la CPU o el almacenamiento de red.
- Clústeres y controladores con tecnología Kubernetes, para una programación más eficiente de los recursos informáticos y el almacenamiento en función de la variación en la exigencia de las cargas de trabajo, al mismo tiempo que mantienen el rendimiento y una latencia más baja.
- Enrutamiento de red con reconocimiento de IA, para programar solicitudes entrantes a los servidores y aceleradores con más probabilidades de tener memorias caché activas con resultados de inferencias anteriores.
- API de comunicación de alto rendimiento, para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).
llm-d: con el respaldo de los líderes del sector
Este nuevo proyecto open source ya cuenta con el apoyo de una gran alianza de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y plataformas en la nube para IA de primer nivel. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, junto con AMD, Cisco, Intel, Lambda y Mistral AI en calidad de partners, lo que destaca la estrecha colaboración de la industria para definir el futuro de la implementación de LLM a gran escala. A la comunidad llm-d se le suman también los patrocinadores fundadores Sky Computing Lab de la Universidad de California, creadores de vLLM, y el Laboratorio de LMCache de la Universidad de Chicago, creadores de LMCache.
Red Hat, afianzado en su inquebrantable compromiso con la colaboración abierta, reconoce la importancia fundamental de contar con comunidades dinámicas y accesibles en el cambiante panorama de la inferencia de IA generativa. Red Hat promoverá activamente el crecimiento de la comunidad de llm-d, fomentando un entorno inclusivo para los nuevos miembros y propiciando su continua evolución.
La visión de Red Hat: cualquier modelo, acelerador o nube
El futuro de la IA debe definirse por oportunidades ilimitadas, sin silos de infraestructura que la restrinjan. Red Hat visualiza un horizonte en el que las empresas puedan implementar cualquier modelo, en cualquier acelerador y en cualquier nube, al mismo tiempo que ofrecen una experiencia de usuario excepcional y más uniforme sin costos exorbitantes. Para aprovechar al máximo el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal, un estándar para lograr una innovación en IA más fluida y de alto rendimiento, tanto hoy como en el futuro.
Así como Red Hat fue precursora de la empresa abierta al transformar Linux en el cimiento de la TI moderna, hoy la compañía está en condiciones de moldear el futuro de la inferencia de IA. El potencial de los vLLM radica en ser una pieza clave de la inferencia de la IA generativa estandarizada y Red Hat tiene el compromiso de construir un ecosistema próspero no solo en torno a la comunidad de vLLM, sino también de llm-d para la inferencia distribuida a gran escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene como meta convertir a vLLM en el estándar abierto por excelencia para la inferencia en la nueva nube híbrida.






