Pubblicato il1 giugno 2026Oltre i Pod: come Kubernetes gestisce il serving di LLM multi-trilioni di parametrikubernetesllmgpuai-infrastructuremlopsKubernetes non esegue i calcoli del modello: orchestra risorse GPU, rete e scheduling. Vediamo come tensor, pipeline ed expert parallelism rendono possibile il serving di LLM enormi.