Inmetrics LATAM

CASO
SRE

Monitoreo SRE para una mayor eficiencia operativa:

Cómo nuestros clientes aumentaron la productividad del equipo en un 75%

A medida que el mundo se transforma digitalmente, la confiabilidad de los sitios web, las aplicaciones en la nube y la infraestructura cloud se ha vuelto algo fundamental para el éxito empresarial. Además, la forma en que administramos los sistemas y sus cargas de trabajo también han cambiado. Los servidores de nivel de entrada se unen a través de la virtualización, con una arquitectura de software distribuida, lo que evita que las interrupciones causen tiempo de inactividad y pérdidas. La atención se centra ahora en la infraestructura digital y la eficiencia. 

En busca de mejoras estratégicas en sus operaciones, uno de nuestros clientes, considerado, considerada la institución financiera más grande de América Latina y una de las más grandes del mundo, buscó al equipo de especialistas de Inmetrics. El banco contaba con un ecosistema digital con varias tecnologías integradas y, por ello, presentamos la metodología SRE como la solución ideal para que el equipo de la institución responsable del proyecto PIX se enfoque en áreas estratégicas, alcanzando el time to market y el plazo de lanzamiento estipulado, sin comprometer la calidad de entrega.

Así, el equipo de especialistas de Inmetrics fue asignado a nuestro cliente para estructurar e implementar el modelo ideal de seguimiento de SRE en las operaciones del equipo en cuestión. 

Implementación de SRE

Site Reliability Engineering (SRE) Ingeniería de Fiabilidad de Sitios es un enfoque de las operaciones que garantiza que las aplicaciones continuas se ejecuten de manera eficiente y confiable a través de soluciones de ingeniería de software y automatización. El concepto clave es la ingeniería, que incluye un enfoque de operaciones basado en datos, una cultura de automatización para aumentar la eficiencia y reducir el riesgo, y una metodología basada en hipótesis sobre incidentes, desempeño y tareas de capacidad. 

Desafíos y oportunidades

La metodología SRE es adaptable y puede incluirse en cualquier equipo de una empresa, según la demanda, madurez o necesidad de estos equipos. Por lo tanto, la fase inicial de nuestro proyecto de seguimiento en esta Institución Financiera se desarrolló de la siguiente manera: 

Identificamos oportunidades de mejora y entendimos el escenario específico de ese entorno tecnológico junto con el equipo responsable del proyecto PIX.
Con base en esto, realizamos un relevamiento de sus principales necesidades.
Estructuramos un plan de acción basado en reuniones de Brainstorm, en las que verificamos las posibilidades de evolución y definimos estrategias para ese entorno productivo.
Iniciamos la fase de implementación de las disciplinas de ingeniería de confiabilidad del sitio (SRE) de acuerdo con la madurez y enfoque del equipo en cuestión.

Desafíos y oportunidades

A partir de ahí, definimos nuestra metodología de implementación y los principales objetivos que perseguiríamos junto con el equipo de nuestro cliente. Desde la parte inferior hasta la parte superior de la pirámide, tenemos las instrucciones de los expertos de Inmetrics: 

USER EXPERIENCE Y FIABILIDAD DEL USUARIO

Prueba final de la experiencia del usuario en relación con los productos y servicios de nuestros clientes a través de un seguimiento inteligente. 

PLANIFICACIÓN DE CAPACIDAD

Correlación de datos, generación y validación de modelos matemáticos, proyección de consumos, análisis de límites e informe de mejora con SLA garantizada 

FALLO DE INYECCIÓN

Inserción de fallas coordinadas, monitoreo de resultados y creación de puertas de resiliencia sistémica en la solución de la aplicación. 

INGENIERÍA DE LANZAMIENTO

Concentrar y estructurar los registros e informes de eventos. Definir, mejorar e integrar la infraestructura, los negocios y los paneles de APM. 

SEGUIMIENTO DE LA EVOLUCIÓN

Concentrar y estructurar los registros e informes de eventos. Definir, mejorar e integrar la infraestructura, los negocios y los paneles de APM. 

INSTRUMENTO Y AUTOMATIZACIÓN

Definición de SLIs & SLOs, instrumentación de servicios críticos, creación de alertas y automatización en el proceso de respuesta a fallas 

IDENTIFICAR Y MAPEAR

Lluvia de ideas inicial con los equipos involucrados, refinamientos de procesos y mapeo completo del sistema 

Impactos de nuestro trabajo

Nuestros especialistas llevaron a las operaciones del equipo responsable del proyecto PIX los principios de la SRE para abordar problemas de infraestructura y automatización de procesos. Fuimos responsables de desarrollar planes de desempeño, estrategia y optimización para estas operaciones. 

Justo en las etapas iniciales de implementación de la metodología SRE, se pudieron observar las siguientes ganancias: 

Mapeado
Visibilidad de todos los microservicios que deben ser instrumentalizados en el entorno de monitoreo
Colaboración
Equipo listo y dispuesto para nuevas ideas y procesos, facilitando la colaboración y las asociaciones
Rompiendo Silos
Mejora de la comunicación y el intercambio de información entre los recursos operativos y de desarrollo
Disminución de esfuerzo
Mejora después del refinamiento de procesos operativos repetitivos
Automatización
Respuesta a incidentes a través de alarmas de anomalías y creación de tickets con múltiples severidades
Nuevo Pensamiento
Cambio en la forma de trabajar de los equipos, Ownership o pertenencia de los servicios de TI y mayor garantía de calidad para el usuario final
Previous
Next

Además, con la implementación del monitoreo SRE en las operaciones del equipo, hicimos que los sistemas fueran más observables y redujimos considerablemente el tiempo dedicado a realizar las tareas diarias, como la resolución de problemas puntuales y war rooms, ya que aportamos conocimientos e información precisa, que efectivamente agregó valor. a los procesos de nuestro cliente. 

RESOLUCIÓN DE TICKETS COMPLETOS
Tiempo de esfuerzo reducido durante el proceso de troubleshooting o resolución de problemas al tratar con los tickets 

WAR ROOMS
El tiempo promedio que se pasa en las salas de guerra se reduce exponencialmente 

Somos expertos en Calidad de Software, reconocidos como empresa líder en Continuous Testing en el ISG Provider Lens ™ Next-Gen ADM Services Brazil 2022 y en los cuadrantes de Product Challenger en Application Quality Assurance y Contender en Agile Application Development Projects.