Blameless Postmortem: Evaluación de desempeño

06 Dec 2023 - Memo, Nepo y Mario

Resumen del incidente

Al dibujar las cartas de control con datos de mayo del 2022 a marzo del 2024, notamos que nuestro desempeño está fuera de control.

Este evento fuera de control fue el sexto desde mayo del 2022, la frecuencia de eventos en este periodo es de 3.4 eventos por año. El último evento comenzó el día 13 de octubre de 2023 y termina el 01 de marzo de 2024. La duración fue de 140 días, el tiempo medio de recuperación es 70 días. Hubo alertas en todas las cartas, estuvimos por debajo del promedio.

¿Qué nos condujo al evento?

Falla

cartas de control

Impacto

Detección

Teníamos agendada la evaluación del desempeño del equipo y decidimos hacer las cartas de control. Hicimos 4 cartas de control: el promedio de lambda, el promedio de W, el rango de la lambda y el rango de W.

Respuesta

Dificultades para responder

Hubo una barrera o retraso para regresar a control en este tiempo. Desde diciembre sabemos que estamos fuera de control y tardamos 10 semanas en recuperar el control. Cuando creamos las cartas de control ya llevábamos dos meses fuera de control. Esta detección tardía provocó que fuera difícil identificar la causa asignable.

Otras ideas para explorar

Recuperación

Regresamos a control el primero de marzo de 2024. A partir del 26 de enero de 2024 intentamos definir tarjetas más cortas y planeamos el número de tarjetas que podrían salir en la semana. Con las cartas de control actualizadas sabíamos cuantas tarjetas debíamos terminar por semana para volver a control. Una vez que teníamos el número necesario, revisamos cuáles eran las tareas más fáciles de terminar y en esas trabajamos.

¿Cómo reducir el tiempo de recuperación?

Línea de tiempo

Cinco “por qué”s

  1. ¿Por qué estamos fuera de control?
    • Las cuatro cartas de control tienen al menos una alerta en el periodo del 13 de octubre de 2023 al 01 de marzo del 2024.
  2. ¿Por qué se activaron las alertas?
    • Porque comenzamos a tener un número menor de tarjetas terminadas.
  3. ¿Por qué disminuyó el número de tarjetas terminadas?
    • En el Kanban ya no contamos el trabajo en el mantenimiento de nuestras herramientas ni del trabajo administrativo.
    • La proporción de tareas clase 1 en este equipo es 17% en el “equipo anterior” teníamos 25%. Las tareas clase 3 de los últimos dos años es 31% antes teníamos 13%. Sospechamos que estamos incluyendo trabajo clase 1 en las tarjetas clase 3.
    • En las 4 semanas previas a la primera alerta:
      • Experimentamos con microservicios. Durante tres semanas invertimos tiempo en implementar el microservicio que genera la gráfica de semáforo. En esas tres semanas solamente tuvimos una estrella en terminado, con cuatro tarjetas terminadas.
      • Cambiamos el servidor de desarrollo y el provisionador a Azure. Al menos tres días de trabajo los invertimos en la migración a Azure.
  4. ¿Por qué quitamos el trabajo administrativo del Kanban, experimentamos con microservicios, nos cambiamos a Azure?
    • Decidimos que el tablero se reflejara el trabajo relacionado a una isla y especie en particular. Aprovechamos que tenemos que ir a oficina para realizar el trabajo administrativo. Aun no queda claro cuáles tarjetas administrativas deben entrar al Kanban.
    • Experimentamos con microservicios porque: Teníamos problemas de dependencias entre paquetes de Python de dos módulos. Usamos esta técnica para evitar problemas de compatibilidad en la imagen del repositorio clase 3.
    • Migramos a Azure porque se nos terminó la donación de DigitalOcean.

Causa raíz

Lecciones aprendidas y cosas ganadas

Acciones correctivas