What is llm-d?

Publicado 24 de octubre de 2025•1 minutos de lectura

llm-d is a Kubernetes-native, open source framework that speeds up distributed large language model (LLM) inference at scale.

This means when an AI model receives complicated queries with a lot of data, llm-d provides a framework that makes processing faster.

llm-d was created by Google, NVIDIA, IBM Research, and CoreWeave. Its open source community contributes updates to improve the technology.

How Red Hat AI speeds up inference

LLM prompts can be complex and nonuniform. They typically require extensive computational resources and storage to process large amounts of data.

llm-d has a modular architecture that can support the increasing resource demands of sophisticated and larger reasoning models like LLMs.

A modular architecture allows all the different parts of the AI workload to work either together or separately, depending on the model's needs. This helps the model inference faster.

Imagine llm-d is like a marathon race: Each runner is in control of their own pace. You may cross the finish line at a different time than others, but everyone finishes when they’re ready. If everyone had to cross the finish line at the same time, you’d be tied to various unique needs of other runners, like endurance, water breaks, or time spent training. That would make things complicated.

A modular architecture lets pieces of the inference process work at their own pace to reach the best result as quickly as possible. It makes it easier to fix or update specific processes independently, too.

This specific way of processing models allows llm-d to handle the demands of LLM inference at scale. It also empowers users to go beyond single-server deployments and use generative AI (gen AI) inference across the enterprise.

How does distributed inference work?

The llm-d modular architecture is made up of:

Kubernetes: an open source container-orchestration platform that automates many of the manual processes involved in deploying, managing, and scaling containerized applications.
vLLM: an open source inference server that speeds up the outputs of gen AI applications.
Inference Gateway (IGW): a Kubernetes Gateway API extension that hosts features like model routing, serving priority, and “smart” load-balancing capabilities.

This accessible, modular architecture makes llm-d an ideal platform for distributed LLM inference at scale.

What is operationalized AI?

Más información

¿Qué es la inferencia distribuida?

La inferencia distribuida permite que los modelos de inteligencia artificial procesen las cargas de trabajo de manera más eficiente al dividir la tarea de inferencia entre un grupo de dispositivos interconectados.

¿Qué es el protocolo de contexto de modelos?

Descubre la manera en que el protocolo de contexto de modelos (MCP) conecta las aplicaciones de inteligencia artificial con las fuentes de datos externas para que puedas diseñar flujos de trabajo más inteligentes.

La seguridad de la inteligencia artificial

La seguridad de la inteligencia artificial protege las aplicaciones de los ataques maliciosos que tienen como objetivo debilitar las cargas de trabajo de inteligencia artificial, manipular datos o robar información confidencial.

IA/ML: lecturas recomendadas

Producto destacado

Red Hat AI

Soluciones flexibles que agilizan el desarrollo y la implementación de las soluciones de inteligencia artificial en los entornos de nube híbrida.

What is llm-d?

Cuatro aspectos clave para la implementación de la tecnología de inteligencia artificial

¿Qué es llm-d y por qué es necesario?

La empresa adaptable: Motivos por los que la preparación para la inteligencia artificial implica prepararse para los cambios drásticos

Más información

¿Qué es la inferencia distribuida?

¿Qué es el protocolo de contexto de modelos?

La seguridad de la inteligencia artificial

IA/ML: lecturas recomendadas

Red Hat AI

Plataformas

Herramientas

Versiones de prueba, compras y ventas

Canales de comunicación

Acerca de Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links