A medida que la realidad técnica de AI-RAN toma forma, muchos proveedores de servicios de telecomunicaciones se dan cuenta de que la pregunta ya no es solo si pueden ejecutar IA y red de acceso por radio (RAN) en el mismo hardware, sino cómo gestionar la IA a escala.
En la colaboración más reciente de Red Hat con SoftBank Corp., integramos llm-d al orquestador AI-RAN de la compañía, AITRAS. Fundado por Red Hat junto con otros líderes de la industria, llm-d es un framework de código abierto diseñado para distribuir de manera dinámica e inteligente la inferencia de grandes modelos de lenguaje (LLMs) dentro de una RAN, con mayor eficiencia y rendimiento.
El desafío: unificar cargas de trabajo de IA y RAN en el edge
Las aplicaciones tradicionales de RAN son ampliamente implementadas por los proveedores de servicios en el edge en CPUs y GPUs, a menudo sobre plataformas de Kubernetes como Red Hat OpenShift. Sin embargo, el avance reciente de GenAI y los modelos de lenguaje basados en transformadores están posibilitando nuevas formas de procesamiento y generación de insights en el edge. Ahora, además de las RANs tradicionales, existen aplicaciones y agentes de RAN impulsados por IA que requieren entornos de ejecución y endpoints de inferencia en el edge.
La pregunta crítica para los proveedores, por lo tanto, es cómo permitir que las RANs tradicionales, los nuevos modelos de lenguaje y los agentes coexistan de forma eficiente en las mismas ubicaciones de RAN, para habilitar nuevos casos de uso, generar valor y monetización. Esta unificación es esencial para reducir los gastos operativos (OpEx) y acelerar el tiempo de comercialización (time-to-market) de nuevos servicios de edge generadores de ingresos.
Para que AI-RAN sea comercialmente viable, los proveedores deben tratar las cargas de trabajo de IA con la misma flexibilidad que las funciones de red nativas de la nube (CNFs) y las aplicaciones. Es en este contexto que entra la colaboración entre SoftBank y Red Hat, utilizando llm-d y vLLM para AI-RAN.
llm-d: el puente entre inferencia y orquestadores
vLLM se ha consolidado como referencia de código abierto para la inferencia de IA, ofreciendo implementación de modelos de alto rendimiento en un único nodo de GPU. Sin embargo, no fue diseñado para gestionar implementaciones en entornos complejos y distribuidos con múltiples nodos. Este es exactamente el problema que llm-d resuelve. Aprovechando Kubernetes, llm-d orquesta vLLM en múltiples nodos para viabilizar la inferencia de IA a escala de producción, extendiendo su eficiencia a entornos distribuidos.
Con la integración de llm-d al orquestador AITRAS de SoftBank, los proveedores pueden lograr avances significativos:
- Unificación de cargas de trabajo de IA y RAN: AITRAS orquesta y optimiza cargas de trabajo de RAN y solicitudes de LLMs en múltiples clústeres de GPU, mientras que llm-d y vLLM dirigen de forma inteligente (considerando prefijo, caché KV y carga) las solicitudes de inferencia a las GPUs. Esto posibilita una mejor gestión de recursos y habilita la escalabilidad automática.
- Optimización orientada al hardware: La inferencia de LLM involucra dos fases distintas: prefill (procesamiento intensivo del prompt, con alta demanda computacional) y decode (generación de tokens, limitada por el ancho de banda de la memoria). Para maximizar la utilización del hardware en entornos heterogéneos, llm-d permite a AITRAS desagregar dinámicamente las fases de prefill y decode, asignando GPUs especializadas para cada etapa. Junto con los recursos de gestión de Kubernetes, esto reduce el riesgo de que cargas de trabajo intensivas de IA comprometan funciones críticas de RAN que comparten el mismo hardware, protegiendo la resiliencia de la red y garantizando la calidad de servicio (QoS) para todos los clientes.
- Escalabilidad autónoma para demandas variables: Las solicitudes de los usuarios para servicios basados en LLM varían significativamente. Con llm-d, AITRAS puede asignar y escalar automáticamente workers de prefill y decode de acuerdo con el perfil de la carga. Esta asignación optimizada reduce la latencia, mejora significativamente el consumo energético y disminuye el costo total de propiedad (TCO), además de apoyar las metas de sostenibilidad para el operador de servicios.
Por qué esto es importante para el futuro del 5G y 6G
La integración de llm-d a AITRAS funciona, en la práctica, como un sistema operativo para IA en el edge. Permite a SoftBank ejecutar inferencia de alto rendimiento y cargas de trabajo de RAN en arquitecturas energéticamente eficientes, incluidos los sistemas basados en Arm, demostrando que AI-RAN puede alcanzar la escalabilidad y flexibilidad exigidas por las redes móviles de próxima generación, como 5G y 6G. Al reemplazar las configuraciones manuales por un modelo automatizado orientado por llm-d, los proveedores eliminan la complejidad operativa que históricamente ha limitado la IA en el edge.
Los proveedores de servicios están entrando en una era en la que la red no solo transporta datos, sino que los procesa de forma inteligente y eficiente. Obtenga más información sobre los resultados de esta integración en el stand de Red Hat en el MWC Barcelona 2026, donde los especialistas estarán disponibles para explicar cómo llm-d y AITRAS están haciendo realidad la promesa de AI-RAN.







