Seguridad en Cloud, Contenedores y DevSecOps - 8. Monitoreo de postura cloud: CSPM, inventario, configuración segura y detección de drift

              Objetivo
              Medir y corregir configuraciones inseguras
            

              Enfoque
              CSPM, inventario, drift, hallazgos y remediación
            

              Resultado
              Mantener una postura cloud visible y gobernada
            

8.1 Introducción

Cloud cambia constantemente. Nuevos recursos, permisos, redes, buckets, bases de datos, funciones, claves y reglas pueden aparecer todos los días. Si la organización no monitorea su postura, la seguridad queda basada en una foto antigua que ya no representa la realidad.

El monitoreo de postura cloud permite comparar el estado real contra políticas esperadas. Detecta recursos públicos, cifrado deshabilitado, permisos excesivos, logs apagados, regiones no aprobadas, reglas de red peligrosas y otras desviaciones.

La meta no es acumular alertas, sino construir un proceso de visibilidad, priorización, remediación y mejora continua.

8.2 Qué es la postura cloud

La postura cloud es el conjunto de condiciones de seguridad observables en los recursos desplegados. Incluye configuraciones, identidades, exposición, cifrado, logging, etiquetas, cumplimiento y relación entre servicios.

Ejemplos de preguntas de postura:

¿Qué recursos están expuestos públicamente?
¿Qué cuentas tienen permisos administrativos?
¿Qué bases de datos no tienen cifrado o backups?
¿Qué regiones se están usando fuera de lo aprobado?
¿Qué workloads no tienen dueño identificado?
¿Qué logs críticos están deshabilitados?
¿Qué recursos fueron modificados fuera de infraestructura como código?

La postura cloud no se declara: se mide. Lo importante es el estado real de la plataforma, no el documento que dice cómo debería estar configurada.

8.3 Qué es CSPM

CSPM significa Cloud Security Posture Management. Es una categoría de herramientas y procesos orientados a descubrir recursos cloud, evaluar configuraciones, detectar desviaciones, priorizar riesgos y facilitar remediación.

Un CSPM suele ofrecer:

Inventario automático de recursos cloud.
Evaluación contra buenas prácticas y marcos de cumplimiento.
Detección de configuraciones inseguras.
Priorización según exposición, criticidad y contexto.
Integración con tickets, alertas y flujos de remediación.
Reportes de cumplimiento y tendencias.
Visibilidad multi-cuenta, multi-proyecto y multi-cloud.

8.4 Inventario continuo

El inventario es la base de la postura. Debe responder qué existe, dónde está, quién lo posee, qué función cumple, qué datos procesa y qué riesgo presenta.

Dato de inventario	Utilidad	Riesgo si falta
Dueño	Asignar responsabilidad de remediación	Hallazgos sin responsable claro
Ambiente	Distinguir desarrollo, staging y producción	Priorización incorrecta
Criticidad	Ordenar riesgos según impacto	Tratar todos los recursos igual
Datos procesados	Aplicar controles de privacidad y cifrado	Exposición de datos sensibles sin detección
Origen de creación	Saber si proviene de IaC, consola o pipeline	Drift y cambios manuales no gestionados

8.5 Configuración segura como referencia

Para detectar desviaciones, primero hay que definir qué significa "seguro". Esa referencia puede basarse en políticas internas, guías del proveedor, benchmarks, requisitos regulatorios y decisiones de arquitectura.

Ejemplos de reglas esperadas:

Los buckets no deben permitir acceso público salvo excepción aprobada.
Los discos, bases y backups deben usar cifrado.
Los logs de auditoría deben estar habilitados y centralizados.
Los puertos administrativos no deben exponerse a internet.
Los recursos deben tener etiquetas obligatorias.
Las claves antiguas o no usadas deben rotarse o eliminarse.
Las regiones no aprobadas deben bloquearse o generar alerta.

8.6 Detección de drift

Drift es la diferencia entre el estado esperado y el estado real. Puede aparecer cuando alguien cambia recursos manualmente, cuando una plantilla queda desactualizada o cuando un servicio modifica configuraciones por dependencia operativa.

Tipos frecuentes de drift:

Reglas de firewall agregadas manualmente para una prueba y nunca retiradas.
Recursos creados desde consola fuera de infraestructura como código.
Etiquetas eliminadas o cambiadas sin actualizar inventario.
Logging desactivado para reducir costos o ruido.
Permisos temporales que se vuelven permanentes.
Cambios de configuración aplicados por soporte sin revisión posterior.

El drift no siempre es malicioso. Muchas veces es operativo. El problema aparece cuando queda invisible y termina convirtiéndose en riesgo permanente.

8.7 Hallazgos típicos de postura

Hallazgo	Riesgo	Remediación inicial
Almacenamiento público	Exposición de datos	Bloquear acceso público y revisar políticas
MFA deshabilitado	Compromiso de cuentas por robo de contraseña	Exigir MFA y revisar usuarios privilegiados
Puertos administrativos abiertos	Fuerza bruta o acceso remoto no autorizado	Cerrar exposición y usar bastion, VPN o sesión gestionada
Logs desactivados	Baja trazabilidad ante incidentes	Habilitar auditoría centralizada y retención
Claves antiguas	Mayor ventana de abuso ante filtración	Rotar, reemplazar por roles temporales o eliminar

8.8 Priorización de riesgos

Un error común es tratar todos los hallazgos igual. La priorización debe considerar severidad, exposición, sensibilidad de datos, criticidad del recurso, facilidad de explotación y contexto.

Factores útiles:

¿El recurso está expuesto a internet?
¿Procesa datos confidenciales o restringidos?
¿Pertenece a producción?
¿El hallazgo permite escalamiento de privilegios?
¿Existe explotación activa o abuso conocido?
¿Hay controles compensatorios?
¿La remediación puede romper operación crítica?

8.9 Remediación

Detectar sin corregir no mejora la seguridad. La remediación debe integrarse con equipos responsables, herramientas de ticketing, pipelines, infraestructura como código y procesos de excepción.

Opciones de remediación:

Manual controlada: un operador corrige con aprobación y evidencia.
Automática: una función o workflow revierte configuraciones prohibidas.
Por IaC: se corrige la plantilla para evitar que el problema reaparezca.
Con excepción: se acepta temporalmente el riesgo con vencimiento y control compensatorio.

La remediación automática debe usarse con cuidado. Puede causar interrupciones si no distingue contexto, criticidad y dependencias.

8.10 Excepciones y riesgo aceptado

No toda desviación puede corregirse inmediatamente. Algunas configuraciones responden a necesidades reales, migraciones o limitaciones técnicas. Lo importante es que las excepciones sean explícitas y temporales.

Una excepción debería incluir:

Recurso afectado y dueño responsable.
Motivo técnico o de negocio.
Riesgo aceptado y controles compensatorios.
Fecha de vencimiento.
Aprobador autorizado.
Plan de remediación definitiva.

8.11 Integración con DevSecOps

La postura cloud no debería controlarse solo después del despliegue. Las mismas reglas deben aplicarse antes, durante y después de crear recursos.

Etapa	Control	Objetivo
Diseño	Patrones aprobados y landing zone	Evitar decisiones inseguras desde el inicio
Pull request	IaC scanning y revisión de políticas	Detectar problemas antes de aplicar cambios
Pipeline	Policy as code y gates de seguridad	Bloquear despliegues fuera de estándar
Runtime	CSPM, alertas y drift detection	Detectar cambios reales en la plataforma
Operación	Tickets, métricas y revisiones periódicas	Corregir, aprender y mejorar la postura

8.12 Métricas de postura

Las métricas permiten evaluar si el programa mejora o solo genera ruido. Deben orientar decisiones, no convertirse en un tablero decorativo.

Métricas útiles:

Cantidad de hallazgos críticos abiertos por ambiente.
Tiempo medio de remediación por severidad.
Porcentaje de recursos con dueño y etiquetas completas.
Cantidad de excepciones vencidas.
Recursos públicos sin aprobación.
Hallazgos repetidos por causa raíz.
Cobertura de cuentas, proyectos y regiones monitoreadas.

8.13 Gobierno operativo

Un programa de postura cloud necesita responsables y proceso. De lo contrario, los hallazgos se acumulan y los equipos dejan de prestar atención.

Roles típicos:

Equipo de seguridad: define políticas, prioriza riesgos y monitorea tendencias.
Equipos de plataforma: construyen guardrails, plantillas y automatizaciones.
Dueños de aplicaciones: corrigen hallazgos de sus recursos.
Operaciones: gestiona cambios, continuidad y respuesta.
Compliance: valida evidencia, excepciones y requisitos regulatorios.

8.14 Errores frecuentes

Activar una herramienta CSPM sin definir responsables de remediación.
Medir cantidad de hallazgos sin priorizar por contexto.
Corregir manualmente sin actualizar infraestructura como código.
Ignorar recursos sin etiquetas o sin dueño.
No revisar excepciones vencidas.
Depender solo de escaneo post-despliegue y no validar en pipelines.
Generar tantas alertas que los equipos dejan de atenderlas.
No monitorear cuentas nuevas, regiones nuevas o servicios recién adoptados.

CSPM no es una solución mágica. Aporta visibilidad, pero la mejora real aparece cuando los hallazgos se priorizan, se corrigen y se previene que vuelvan a ocurrir.

8.15 Lista de verificación

¿Todas las cuentas, proyectos y regiones están cubiertos por monitoreo de postura?
¿Existe inventario con dueño, ambiente, aplicación y criticidad?
¿Las reglas de postura reflejan políticas internas y requisitos reales?
¿Los hallazgos críticos tienen SLA de remediación?
¿La remediación actualiza IaC cuando corresponde?
¿Las excepciones tienen vencimiento y aprobador?
¿Se detecta drift respecto del estado esperado?
¿Las métricas muestran tendencia, causa raíz y cobertura?

8.16 Qué debes recordar de este tema

La postura cloud se basa en el estado real de los recursos, no en supuestos.
El inventario continuo es la base para priorizar y asignar responsabilidades.
El drift debe detectarse porque los cambios manuales degradan la seguridad con el tiempo.
La remediación debe corregir la causa, no solo el síntoma visible.
CSPM es útil si se integra con procesos, dueños, IaC, tickets y métricas.

8.17 Conclusión

Monitorear la postura cloud permite convertir configuraciones dispersas en información accionable. La combinación de inventario, reglas, drift detection, priorización y remediación ayuda a mantener una plataforma segura mientras evoluciona.

En el próximo tema comenzaremos el bloque de contenedores con sus fundamentos: imágenes, capas, runtimes y superficie de ataque.

Volver al índice