Ingeniería de confiabilidad del sitio - curso 65.000 rublos. de Slurm, entrenamiento, Fecha 1 de enero de 2024.
Miscelánea / / November 29, 2023
A LA GENTE
Un ingeniero de SRE puede ser un ingeniero de operaciones o un desarrollador. Durante el curso intensivo, practicarás mucho y las habilidades y conocimientos que adquieras podrán adaptarse e implementarse en cualquier campo.
NEGOCIO
SRE resuelve los mismos problemas que DevOps: aumenta la velocidad de lanzamiento de nuevas funciones y mejora los procesos dentro del equipo. Pero la tarea principal de SRE es garantizar la estabilidad y confiabilidad de los servicios, excluyendo situaciones en las que los usuarios se quejan de fallas y los ingenieros tienen horarios ecológicos.
Estamos construyendo:
Nuestro sitio de formación consta de varios microservicios. Agrega datos sobre espectáculos, precios y asientos disponibles de todos los cines, muestra anuncios de películas, le permite seleccionar un cine, espectáculo, sala y lugar, reservar y pagar entradas.
Formularemos indicadores SLO, SLI, SLA para este sitio, desarrollaremos una arquitectura e infraestructura que los respalde, estableceremos monitoreo y alertas.
Los errores de los desarrolladores, las fallas de la infraestructura, la afluencia de visitantes y los ataques DoS empeoran los SLO.
Analizamos estabilidad, presupuesto de errores, práctica de pruebas, gestión de interrupciones y carga operativa.
Hubo un accidente. El servicio de procesamiento de pagos no funciona. ¿Cómo actuar para restablecer la funcionalidad en el menor tiempo posible?
Organizamos el trabajo del equipo de respuesta a emergencias: involucrando a colegas, notificando a las partes interesadas, estableciendo prioridades. Nos capacitamos para trabajar bajo presión en condiciones de tiempo extremadamente limitadas.
Veamos el acercamiento al sitio desde el punto de vista de SRE. Analizamos incidentes (causas de ocurrencia, progreso de eliminación). Tomamos decisiones para prevenirlos aún más: mejoramos el seguimiento, cambiamos la arquitectura, el enfoque de desarrollo y operación, y las regulaciones. Automatizamos procesos.
— Tenemos docenas de infraestructuras construidas y cientos de canales de CI/CD escritos.
— Administrador certificado de Kubernetes,
— Autor de varios cursos sobre Kubernetes y DevOps,
— Ponente habitual en conferencias rusas e internacionales sobre TI.
DÍA 1: sesión de inicio de AMA
Discutiremos las metas y objetivos del curso, y también te diremos qué es SRE y lo dividiremos en equipos.
Apertura de 2 temas teóricos:
Tema 1: Monitoreo
- ¿Por qué es necesario el seguimiento?
- percentiles
- alertando
- Observabilidad
Tema 2: Teoría ERE
- SLO, SLI, SLA
- Durabilidad
- Presupuesto erróneo
DÍA 2: análisis de prácticas y casos
Práctica: Hacer un panel básico y configurar las alertas necesarias
Práctica: Agregar alertas SLO/SLI + al tablero
Práctica: Primera carga del sistema
Solución del caso 1: dependencia descendente.
En un sistema grande, hay muchos servicios interdependientes y no siempre funcionan igual de bien. Es especialmente molesto cuando tu servicio está en orden, pero el vecino, del que dependes, se cae periódicamente.
El proyecto educativo se encontrará exactamente en estas condiciones y usted se asegurará de que siga produciendo calidad al más alto nivel posible.
DÍA 3: Sesión AMA, preguntas respondidas
Se abre el acceso al 2º módulo teórico:
Resolver problemas con el medio ambiente y la arquitectura.
El segundo módulo se basa en la resolución de dos casos: dependencia ascendente y problemas arquitectónicos. Los oradores hablarán sobre la gestión de incidentes, las reglas para los bomberos y el trabajo con autopsias y proporcionarán plantillas que puede utilizar en su equipo.
Tema 3: Gestión de Incidentes
- Ingeniería de resiliencia
- Cómo se forma un cuerpo de bomberos
- ¿Qué tan efectivo es su equipo en el incidente?
- 7 reglas para un líder de incidentes
- 5 reglas para un bombero
- HiPPO: opinión de la persona mejor pagada. Líder de Comunicaciones
tTema 4: Herramientas Varrum y gestión de alertas.
Mejores prácticas de otras empresas en la organización de la gestión de incidencias.
DÍA 4: análisis de prácticas y casos
Solución al caso 2: dependencia ascendente.
Una cosa es cuando dependes de un servicio con un SLO bajo. Otra cuestión es cuando su servicio es el mismo para otras partes del sistema. Esto sucede si los criterios de evaluación no son consistentes: por ejemplo, usted responde a una solicitud en un segundo y la considera exitosa, pero el servicio dependiente espera solo 500 hora de Moscú y sale con un error.
En el caso, discutiremos la importancia de armonizar métricas y aprenderemos a mirar la calidad a través de los ojos del cliente.
Solución al caso 3: problemas con la base de datos.
La base de datos también puede ser una fuente de problemas. Por ejemplo, si no supervisa la retransmisión de replicación, la réplica quedará obsoleta y la aplicación devolverá datos antiguos. Además, depurar estos casos es especialmente difícil: ahora los datos son inconsistentes, pero después de unos segundos ya no lo son y no está claro cuál es la causa del problema.
A través del caso, sentirá todo el dolor de la depuración y aprenderá cómo prevenir dichos problemas.
Práctica: Escribimos una autopsia del caso anterior y lo comentamos con los ponentes.
DÍA 5: Sesión AMA, preguntas respondidas
Sesión AMA y respuesta a dudas sobre temas anteriores.
Se abre el acceso al 3er módulo teórico:
Protección del tráfico y liberaciones de canarios.
En el tercer módulo analizaremos un caso dedicado a un problema con el medio ambiente (habrá un análisis detallado de Salud Comprobando), y también analizaremos paso a paso cómo implementar la SRE en las empresas y conoceremos la experiencia de las empresas donde trabajan los ponentes. intensivo
Tema 5: Comprobación de estado
- Comprobación de estado en Kubernetes
- ¿Nuestro servicio sigue vivo?
- Sondas ejecutivas
- Retraso inicialSegundos
- Puerto Sanitario Secundario
- Servidor de estado del sidecar
- Sonda sin cabeza
- Sonda de hardware
Tema 6: Métodos de implementación
Tema 7: Incorporación de proyectos SRE
Las grandes empresas suelen formar un equipo SRE independiente, que contrata los servicios de otros departamentos como soporte. Pero no todos los servicios están preparados para ser aceptados como soporte. Te contamos qué requisitos debe cumplir. Los oradores también compartirán su experiencia, cómo implementaron SRE y qué errores cometieron.
DÍA 6: análisis de prácticas y casos
Solución al caso 4: hay un problema con el medio ambiente, es imposible comprar billetes.
La tarea de Healthcheck es detectar un servicio roto y bloquear el tráfico hacia él. Y si crees que para ello basta con realizar una solicitud al servicio con root y recibir respuesta, entonces estás equivocado: incluso si el servicio responde, esto no garantiza su funcionamiento; pueden surgir problemas en alrededores.
A través de este caso, aprenderá cómo configurar el Healthcheck correcto y no permitir que el tráfico vaya a donde no se pueda procesar.
resumiendo