Ubuntu

En defensa de los servidores de mascotas

En defensa de los servidores de mascotas

Todos conocemos el ejercicio a estas alturas: la infraestructura informática moderna debe ser determinista, desechable, mercantilizada y repetible. Todos somos agricultores ahora, y nuestras fincas de servidores deben tratarse como ganado, listas para el sacrificio en cualquier momento.

Sin embargo, debemos recordar que el impulsor detrás de la justificación del nuevo diseño es principalmente la naturaleza poco confiable de la infraestructura informática en la nube moderna y sus débiles acuerdos de nivel de servicio (SLA) asociados. Demos un paso atrás del mantra del ganado sobre las mascotas por un momento, y evaluemos si este es siempre el camino correcto a seguir.

Computación en el templo

En épocas pasadas, los ingenieros de despliegue planeaban y ensayan cuidadosamente haciendo sus postraciones ante el altar de lanzamiento de software, y una vez que se bajaban suavemente a su lugar, se alejaban lentamente del nuevo servicio en ejecución, mientras hacían sus bendiciones.

Todo el proceso solía ser manual, posiblemente documentado hasta cierto punto en un runbook, pero a menudo requería conocimiento secreto y sabiduría transmitida en susurros de maestro a aprendiz. En estos días, el conocimiento y la sabiduría están codificados en soluciones de automatización como Juju, Terraform y otros habilitadores automatizados de infraestructura como código (IAC), y los procesos de lanzamiento ya no se planifican y ensayan manualmente, sino que consisten en procedimientos de lanzamiento e implementación de software totalmente automatizados.

Por lo tanto, en los últimos tiempos, se ha realizado una gran inversión para mejorar la vida de los equipos de implementación y operaciones. La ingeniería de confiabilidad del sitio (SRE), a veces conocida como el equipo de soporte L2, se ha beneficiado de manera similar a partir de herramientas mejoradas en torno a la observabilidad, es decir, métricas, monitoreo, registro y alertas, así como herramientas de diagnóstico post mortem, detección de intrusiones y sistemas de prevención. detección de anomalías en la red, etc.

Pero a pesar de toda esta inversión masiva para transformar la administración de sistemas de un mundo de queridas mascotas a un mundo de rebaños de ganado no amados, todavía queda esta dura realidad: para muchos casos de uso empresarial, los sistemas de larga duración con un tiempo de actividad muy alto están lejos más fáciles de implementar y operar, tienen un costo total de propiedad enormemente más económico y son simplemente más apropiados que las nuevas arquitecturas de sistemas heroicamente desechables.

La tecnología web se generaliza

Si bien una solución de redes sociales basada en la web puede tolerar días de tiempo de inactividad prolongado en algunos componentes de backend cuando la región de la nube de la que dependen se cae (y mediante el uso inteligente del almacenamiento en caché es posible que ni siquiera lo note); una aplicación crítica para la seguridad, por ejemplo, un sistema de control de tráfico aéreo altamente transaccional o una aplicación de gestión de red de energía de alto voltaje, no puede tolerar ningún tiempo de inactividad; incluso unos pocos minutos de indisponibilidad pueden tener graves consecuencias.

Para esas aplicaciones, construir una infraestructura multinube, multirregional y altamente resistente que pueda asegurar un tiempo de actividad extremadamente alto incluso cuando la infraestructura virtual subyacente se ofrece a un SLA muy bajo, rápidamente se vuelve mucho, mucho más costoso que simplemente construir una infraestructura decente. para empezar. Es como construir una casa sobre arena versus construir una casa sobre roca; no es una tarea tonta, pero aún así.

Entonces, ¿cómo podemos reconciliar esta situación? Obviamente, la automatización de los runbooks de los equipos de operaciones tiene muchos beneficios. La respuesta automatizada de operaciones de seguridad (SOAR) es un ejemplo muy tangible: al automatizar procedimientos bien ensayados para responder a un incidente de seguridad, todo el evento puede tratarse de manera extremadamente rápida. En muchos casos, el tiempo que se tarda en cerrar un incidente de seguridad detectado tiene un efecto directo en su gravedad para la empresa.

Por supuesto, los sistemas fallan todo el tiempo, especialmente a gran escala. Pero, por otro lado, diseñar una solución en exceso, en este caso diseñar y construir para una infraestructura desechable, cambiante y poco confiable, podría terminar siendo más costoso que simplemente salir y comprar equipos de clase empresarial. Si no necesita pasar a la hiperescala, la arquitectura de su solución para la infraestructura en la nube podría no ser el enfoque más rentable.

Ciertamente, las mascotas necesitan cuidados, lo que significa hacer un compromiso e inversión a largo plazo para el mantenimiento, asegurando que las implementaciones permanezcan razonablemente actualizadas y se defiendan contra vulnerabilidades y exposiciones críticas (CVE). Pero, de hecho, la mayoría de estas soluciones necesitan una inversión significativa en mantenimiento de software, independientemente del enfoque de la gestión del entorno. Aquí hay otro matiz: la mayoría de las implementaciones con estado de larga duración, independientemente de cómo se traten los sistemas individuales que las componen, a menudo también se pueden considerar una especie de «mascota» que necesita un cuidado y atención significativos.

Y ciertamente, hay algunos casos de uso en los que el paradigma del ganado realmente brilla, por ejemplo, lanzar un clúster Apache Spark de 10,000 nodos durante 10 minutos, procesar algunos datos realmente grandes y luego terminarlos y alejarse. Este enfoque termina costando unos pocos cientos de dólares frente a los cientos de miles de dólares que se requerirían para invertir en la propiedad de este tipo de plataforma.

Sin embargo, no todos los casos de uso empresarial se beneficiarán de la infraestructura en la nube a hiperescala, y aunque todas las organizaciones inevitablemente se beneficiarán enormemente de la automatización mejorada, conseguir la infraestructura subyacente correcta puede hacer que el punto de equilibrio del esfuerzo de automatización sea mucho menor. Y en ese punto, el mantra desapasionado de la ganadería puede comenzar a desaparecer y podemos volver a amar a nuestras mascotas.

Más información: vencer la disrupción: cómo adaptar su estrategia de TI a los mercados cambiantes

Leave a Comment

You may also like