Mejores Prácticas EKS

Arquitectura

Piense en multilocación, aislamiento para entorno diferente o carga de trabajo diferente
- Aislamiento a nivel de cuenta usando la organización de AWS
- Aislamiento en la capa de red, es decir, VPC diferente y cluster diferente
- Use grupos de nodos diferentes (pool de nodos) para propósito/categoría diferente, por ejemplo, cree grupos de nodos dedicados para herramientas operacionales, como herramienta CI/CD, herramienta de monitoreo, sistema de log centralizado.
- Namespace separado para carga de trabajo diferente

Confiabilidad | Principios

Recomendado usar VPC dedicada para EKS
- Arquitectura modular y escalable de Amazon EKS
- Planifique su VPC y CIDR de subred, evite la complejidad de usar múltiples CIDRs en una VPC y red personalizada CNI
Entienda y verifique Cuota de servicio de EKS/Fargate y otros servicios relacionados
Implemente el Cluster Autoscaler para ajustar automáticamente el tamaño de un cluster EKS hacia arriba y hacia abajo basándose en las demandas de programación.
Considere el número de nodos del trabajador y la degradación del servicio si hay falla de nodo/AZ.
- Cuide del RTO.
- Considere tener un nodo de buffer.
Considere no elegir un tipo de instancia muy grande para reducir el radio de explosión.
Habilite el Horizontal Pod Autoscaler para usar la utilización de la CPU o métricas personalizadas para expandir los pods.
Use la infraestructura como código (archivos y plantillas de manifiesto de Kubernetes para aprovisionar clusters/nodos de EKS, etc.)
Use múltiples AZs. Distribuya las réplicas de la aplicación para diferentes zonas de disponibilidad del nodo del trabajador para redundancia
- Cuidado con sus pods persistentes que usan EBS como PersistentVolume. Use anotación, por ejemplo, topology.kubernetes.io/zone=us-east-1c
Nodos de trabajo altamente disponibles y escalables usando grupos de Auto Scaling, use grupo de nodos
- Considere usar Grupos de nodos gestionados para fácil configuración y alta disponibilidad de nodos durante actualizaciones o terminación
- Considere usar Fargate para no tener que gestionar nodos de trabajo. Pero cuidado con las limitaciones de Fargate.
Considere separar el Node Group para sus funciones de aplicación y utilidad, por ejemplo, base de datos de log, plano de control de service mesh
Implemente aws-node-termination-handler. Detecta si el nodo quedará no disponible/terminado, como interrupción de spot, entonces asegúrese de que ningún nuevo trabajo sea programado allí y luego drénelo, removiendo cualquier trabajo existente. Tutorial | Anuncio
Configure Pod Disruption Budgets (PDBs) para limitar el número de pods de una aplicación replicada que están inactivos simultáneamente de interrupciones voluntarias, por ejemplo, durante la actualización, despliegue continuo y otros casos de uso.
Use AWS Backup para hacer backup de EFS y EBS
Use EFS para clase de almacenamiento: el uso de EFS no requiere el pre-aprovisionamiento de la capacidad y permite migraciones de pod más eficientes entre nodos de trabajo (removiendo almacenamiento anexado al nodo)
Instale el Node Problem Detector para proporcionar datos accionables para curar clusters.
Evite errores de configuración, como el uso de antiafinidad, que hace con que el pod no pueda ser reprogramado debido a falla del nodo.
Use sondas de vivacidad y prontitud
Practique la ingeniería del caos, use herramientas disponibles para automatizar.
- Mate pods aleatoriamente durante el test
Implementar el gerenciamiento de fallas a nivel de microservicio, por ejemplo, patrón de disyuntor, controlar y limitar llamadas de repetición (retroceso exponencial), limitación, tornar los servicios sin estado siempre que sea posible
Practique cómo hacer upgrade del cluster y de los nodos del trabajador para la nueva versión.
- Practique cómo drenar los nodos del trabajador.
Practique la ingeniería del caos
Utilizar herramientas de CI/CD, automatizar y tener flujo de procesos (aprobación/revisión) para cambios de infraestructura. Considere implementar Gitops.
Use solución multi-AZ para volumen persistente, por ejemplo, Thanos+S3 for Prometheus

Eficiencia de Rendimiento | Principios

Informe al soporte de AWS si necesita pre-escalar el Plano de Control (Nodo maestro y Etcd) en caso de incremento de carga repentino
Elija el tipo de instancia de EC2 correcto para su nodo del trabajador.
- Entienda los pros y contras de usar muchas instancias de nodos pequeños o pocas instancias de nodos grandes. Considere la sobrecarga del SO, el tiempo necesario para extraer la imagen en una nueva instancia cuando es dimensionada, la sobrecarga del kubelet, la sobrecarga del pod del sistema, etc.
- Entienda la limitación de densidad de pods (número máximo de pods compatible con cada tipo de instancia)
Use grupos de nodos single-AZ, si es necesario. Normalmente, una de las mejores prácticas es ejecutar un microservicio en Multi-AZ para disponibilidad, pero para algunas cargas de trabajo (como Spark) que necesitan de latencia de microsegundos, con alta operación de E/S de red y transientes, se hace el envío para usar single-AZ.
Entienda la limitación de rendimiento de Fargate. Haga el test de carga antes de ir a la producción.
Asegúrese de que su pod solicite los recursos necesarios. Definir recursos request y limit como CPU, memoria
Detectar cuello de botella/latencia en un microservicio con el X-Ray u otros productos de rastreo/APM
Elija el backend de almacenamiento correcto. Use el Amazon FSx for Lustre y su CSI Driver si su contenedor persistente necesita de un sistema de archivos de alto rendimiento
Monitoree el consumo de recursos de pods y nodos y el embudo de tecnología. Puede usar CloudWatch, CloudWatch Container Insight u otros productos
Si es necesario, inicie instancias (nodos de trabajo) en Placement Groups para aprovechar la baja latencia sin disminuir la velocidad. Puede usar esta plantilla de CloudFormation para añadir nuevos grupos de nodos con conectividad sin bloqueo, sin exceso de suscripción y totalmente bi-seccional.
Si es necesario, configure la política de gerenciamiento de CPU de Kubernetes como 'static' para algunos pods que necesitan CPUs exclusivas

Optimización de costos

Minimice los recursos desperdiciados (no utilizados) al usar EC2 como nodo del trabajador.
- Elija el tipo de instancia de EC2 correcto y use el dimensionamiento automático de cluster.
- Considere usar Fargate
- Considere usar una herramienta como kube-resource-report para visualizar el costo de holgura y dimensionar correctamente las solicitudes para los contenedores en un pod.
Use instancias spot o mezcle bajo demanda y spot usando Spot Fleet. Considere usar instancias spot para entorno de test/staging.
Usar instancia reservada o planes de ahorro
Use grupos de nodos de AZ único para carga de trabajo con alta operación de E/S de red (por ejemplo, Spark) para reducir la comunicación entre AZ. Pero, por favor, valide si la ejecución del Single-AZ no comprometería la disponibilidad de su sistema.
Considere los servicios gestionados para herramientas de soporte, como monitoreo, service mesh, log centralizado, para reducir el esfuerzo y el costo de su equipo
Marque todos los recursos de AWS cuando sea posible y use etiquetas para marcar los recursos de Kubernetes para que pueda analizar fácilmente el costo.
Considere usar Kubernetes de autogestionamiento (no usando EKS) para cluster sin HA. Puede configurar usando Kops para su pequeño cluster k8s.
Use Node Affinities usando nodeSelector para pod que requiere un tipo de instancia EC2 específico.

Operación: Principios

Use la herramienta IaC para aprovisionar el cluster EKS, como
- CloudFormation.
  - Despliegue de referencia
  - Desplegar nodos de autogestionamiento
- Terraform
- Eksctl
- AWS CDK
Considere usar el gestor de paquetes como Helm para ayudarle a instalar y gestionar aplicaciones.
Automatice el gerenciamiento de cluster y el despliegue de aplicaciones usando GitOps. Puede usar herramientas como Flux u otros
Use herramientas de CI/CD
Practique hacer la actualización de EKS (rolling update), cree el runbook.
- GitHub - hellofresh/eks-rolling-update: EKS Rolling Update es una utilidad para actualizar la configuración de inicio de nodos de trabajo en un cluster EKS.
- Open Sourcing EKS Rolling Update: una herramienta para actualizar clusters de Amazon EKS
Monitoreo
- Comprenda la salud de su carga de trabajo. Defina KPI/SLO y métricas/SLI y después monitoree a través de su panel y configure alertas
- Entienda su Salud Operacional. Defina KPI y métricas como tiempo medio para detectar un incidente (MTTD) y tiempo medio para recuperación (MTTR) de un incidente.
- Use el monitoreo detallado usando Container Insights for EKS para detallar el servicio, rendimiento de cápsulas. También proporciona información de diagnóstico y considera la visualización de métricas adicionales y niveles adicionales de granularidad cuando ocurre un problema.
- Monitorear métricas del plano de control usando Prometheus
- Monitoreo usando Prometheus & Grafana
Logging
- Considere el mecanismo DaemonSet vs Sidecar. DaemonSet es preferible para nodos workers EC2, pero necesita usar el patrón Sidecar para Fargate.
- Registro del plano de control
- Puede usar pila EFK o FluentBit, Kinesis Data Firehouse, S3 y Athena
Rastreo
- Monitoree la transacción de grado fino usando X-Ray eksworkshop.com. También es bueno monitorear el despliegue blu-green. Otras herramientas
Practique la Ingeniería del Caos, puede automatizar usando algunas herramientas
Configuración
- Appmesh + EKS demostración / laboratorio: GitHub - PaulMaddox/aws-appmesh-helm: AWS App Mesh ❤ K8s
- Mapa de la Nube AWS:
  - AWS Cloud Map: Cree y mantenga fácilmente mapas personalizados de sus aplicaciones | Blog de noticias de AWS
  - AWS CloudMap + Consul:

Seguridad | Principios

Comprender el modelo de responsabilidad compartida para diferentes modos de operación de EKS (nodos autogestionados, grupo de nodos gestionados, Fargate)
Prácticas recomendadas de seguridad de AWS para EKS
Integrando seguridad en su pipeline de contenedores | workshop
Use red personalizada CNI, si su pod necesita tener un grupo de seguridad diferente con sus nodos o pods para ser colocado en subredes privadas, pero el nodo está, en verdad, en subred pública.
Log de la API Cloudtrail EKS
- Considere habilitar la entrega continua de eventos de CloudTrail para un bucket de Amazon S3
Use la política de red para el tráfico Este-Oeste: Calico
Use grupos de seguridad para pods solo para K8s > v1.17. Vea algunas consideraciones
Presentando funciones de IAM refinadas para cuentas de servicio | Blog de código abierto de AWS

Packer for AMI build: Configuración de Packer para crear una AMI EKS personalizada

Arquitectura​

Confiabilidad | Principios​

Eficiencia de Rendimiento | Principios​

Optimización de costos​

Operación: Principios​

Seguridad | Principios​

Arquitectura

Confiabilidad | Principios

Eficiencia de Rendimiento | Principios

Optimización de costos

Operación: Principios

Seguridad | Principios