VPC CNI en EKS: cómo dejar de pagar nodos que no usás

The article explains how AWS EKS clusters often waste money because nodes run out of assignable pod IP addresses before fully utilizing their CPU and memory resources. It describes how enabling **Prefix Delegation** in the Amazon VPC CNI plugin allows each Elastic Network Interface (ENI) to assign blocks of 16 IPs instead of single IPs, dramatically increasing the maximum pod capacity per node (e.g., from 29 to 434 pods on a m5.large). To realize cost savings, users must also manually configure the `kubelet` `--max-pods` setting (e.g., to 110) in Karpenter or the bootstrap script, as Kubernetes will otherwise reject new pods despite available IPs.

Si alguna vez miraste un nodo de EKS y viste algo como esto: CPU: 18% Memory: 22% Pods: 29/29 ← 😐 ya viviste el problema del que va este post. Tus nodos tienen recursos para utilizar pero no podes schedulear más pods en ellos... La buena noticia: hay una configuración llamada Prefix Delegation en AWS VPC CNI que amplia este techo, y bien configurada te puede bajar la factura de EC2 hasta un 75% sin tocar una sola línea de código de la app. Vamos por partes. Un nodo de EKS es una instancia EC2. A esa EC2 se le atachan Elastic Network Interfaces ENIs , que son las placas de red virtuales. Cada ENI tiene: El plugin Amazon VPC CNI que corre como un DaemonSet llamado aws-node en cada nodo es el encargado de pedirle IPs a EC2 y dárselas a los pods cuando arrancan. Cada pod recibe una IP real y ruteable de la VPC, no una IP virtual dentro de EKS. Lo cual es la causa del problema: el número de pods queda atado a cuántas IPs aguanta la instancia. Para saber cuantos pods pueden schedulearse en un nodo puede usarse la siguiente formula: MaxPods x Nodo = ENIs × IPs por ENI − 1 + 2 donde: ENIs : cuántas placas virtuales atacha la instanciaIPs por ENI − 1 : descontamos la IP primaria+ 2 : dos pods con hostNetwork: true que no consumen IP de pod típicamente kube-proxy y aws-node Los límites de ENIs e IPs por instancia están en la doc oficial de tipos de instancia EC2. Aplicada a la familia M5: Analizando la m5.large: 29 pods. Con 2 vCPU y 8 GiB de RAM, si tus pods piden 100m CPU y 256 MiB de RAM apis simples , la cuenta da: Y restando los pods de sistema kube-proxy, aws-node, csi-drivers, coredns en algunos nodos , te quedan unos 24 slots útiles. Estás pagando 2 vCPUs y 8 GiB de RAM para correr aplicaciones que apenas usan la mitad del nodo. Si además estás utilizando escalado automático, tu controller al ver que no entran más pods, levanta otro nodo igual. Y otro. Y otro. Así aumentan los costos de nuestras EC2. Este AWS VPC CNI plugin que analizamos anteriormente puede configurarse en otro modo de funcionamiento Prefix Delegation . En este modo, en lugar de pedirle a la EC2 una IP a la vez, el CNI puede pedirle prefijos /28. Es decir, bloques contiguos de 16 IPs. Cada "slot" de la ENI pasa de ser 1 IP a ser 16 IPs. Entonces, a partir de este cambio tenemos una fórmula nueva: MaxPods = ENIs × IPs por ENI − 1 × 16 + 2 Para la misma m5.large ahora tendriamos: 3 × 9 × 16 + 2 = 434 pods teóricos . Pero esto es más teórico que real. Debajo lo analizamos mejor. Es una variable de entorno en el addon vpc-cni : { "env": { "ENABLE PREFIX DELEGATION": "true", "WARM PREFIX TARGET": "1" } } Acá viene la trampa. Activar Prefix Delegation no es suficiente — hay que decirle al kubelet de cada nodo que use el límite nuevo no lo detecta solo . Si no, vas a tener IPs disponibles pero Kubernetes va a seguir rechazando pods con un mensaje de error: "Too many pods, 0/N nodes are available". Para configurarlo: Karpenter por default usa --use-max-pods=false y un cap de 110 pods, pero no lo ajusta por instancia automáticamente. Hay que decirle explícitamente en el NodePool : apiVersion: karpenter.sh/v1 kind: NodePool metadata: name: default spec: disruption: consolidationPolicy: WhenEmptyOrUnderutilized expireAfter: Never limits: cpu: "50" template: spec: kubelet: maxPods: 110 👈 el cambio ¿Por qué Karpenter no lo hace solo? Porque el script max-pods-calculator.sh de AWS sigue usando la fórmula vieja Secondary IP y no entiende Prefix Delegation. Karpenter prefiere dejarte un default conservador y que vos decidas. Info en la doc de Karpenter NodeClass. Hay que ajustar el bootstrap script: /etc/eks/bootstrap.sh my-cluster \ --use-max-pods false \ --kubelet-extra-args '--max-pods=110' Antes de poner el resultado de la nueva tabla, hay que tener en cuenta el siguiente thresholds de kubernetes: min 110, 10 cores La regla, validada por kubernetes, asegura que el promedio de procesos por core quede en un rango que el scheduler del kernel maneje bien. Entonces el nuevo calculo para pods por EC2 es el siguiente: maxPods real = min kubelet maxPods, EKS cap, CNI formula, 10 × cores Para una m5.large entonces con PD: min 110, 250, 434, 20 = 20 . Pero ahora tenemos menos. En este caso conviene dejar en: 110. Referencia: Kubernetes Scalability Thresholds SIG Scalability . Ahora revisando nuevamente las EC2: Hay casos donde no ganás nada o incluso te complica la vida: La regla práctica: PD es palanca para instancias chicas con pods chicos. Para instancias grandes con pods pesados, el problema ya es otro. Caso de analisis: cluster con ~200 pods de microservicios livianos 100m CPU / 256 MiB RAM cada uno . Sin Prefix Delegation, con m5.large: Con Prefix Delegation, con m5.xlarge y maxPods=110: Ahorro: ~55% sobre el costo de cómputo, siendo conservador. Se pueden disminuir más los costos usando instancias SPOT. El networking de EKS tiene un techo que es invisible hasta que se analizan los costos. Prefix Delegation no es un cambio gigante, es una variable de entorno que te baja el costo de cómputo en ciertos casos de usos. eni-max-pods.txt — tabla canónica de max pods por instanciaEste post nace de mi charla en AWS Community Day Argentina 2025. Si tenés dudas sobre cómo aplicar esto a tu cluster contactame en /in/blanco-lucas.