GameDay AWS : Veolia Water Technologies teste la résilience des infrastructures Cloud

En juin dernier nous organisions le premier GameDay français avec les équipes de Veolia Water Technologies. L’objectif de cet exercice était de tester la résilience d’une infrastructure similaire à la production, et de s’entraîner à la détection et à la résolution des incidents dans le cadre d’une simulation. Après vous avoir présenté le déroulé de la journée, nous vous proposons de découvrir le retour d’expérience sur le GameDay AWS de l’équipe Veolia Water Technologies.

Nous souhaitions vérifier l’approche autour des tests de résilience d’infrastructure Cloud, la comprendre, la comparer aux approches traditionnelles de PRA ou DRP (disaster recovery plan) et voir ce que nous pouvions en tirer. Le GameDay était l’occasion de vérifier les promesses du Cloud, et de voir comment l’application réagit quand on casse certaines briques de l’infrastructure. C’était aussi un test préalable pour voir si nous pouvions étendre ce concept à d’autres applications éligibles.

Pierre Kerrinckx, Cloud Transformation & Integration Manager

Au préalable du Gameday, les équipes de Veolia Water Technologies ont préparé avec D2SI les environnements destinés à être utilisés durant la journée. Afin de ne pas perturber la production, des environnements dédiés, similaires à la production, ont été mis en place. “Nous avons aussi appris de cette phase de préparation des environnements, qui nous a permis de pousser l’automatisation de leur création”, nous explique Pierre Kerrinckx.

D2SI_Blog_AWS_GameDay (4)

Si une partie de l’équipe a participé à la préparation de la journée, tous ne savent pas exactement en quoi l’exercice consiste. Tester la résilience, oui mais comment ? C’est une question que Sacha Meilleurat, Spécialiste Infrastructure se pose : “Avant de commencer la journée, nous avions de nombreuses interrogations sur les actions qui allaient être menées. Allions-nous casser l’infrastructure et ensuite la réparer comme le fait Netflix ?

Tout au long de la journée, les participants ont eu à résoudre différents incidents liés au monitoring, aux hyperviseurs, au loadbalancing AWS ou encore aux security groups :

La journée du GameDay nous a permis de monter en compétence sur AWS, notamment au niveau du monitoring où nous avons beaucoup appris. Après chaque scénario, nous avons apprécié de pouvoir faire le point lors du debriefing et voir quels étaient les axes d’amélioration sur les points soulevés.

Pierre Kerrinckx

Le GameDay vise aussi à promouvoir une organisation DevOps au sein des équipes. Durant cette journée, un développeur est présent aux côtés des opérationnels : « Travailler en mode Devops aux côtés d’un expert de l’application a favorisé l’échange de points de vue entre le développeur et les opérationnels, et a permis de détecter plus facilement l’origine de certains dysfonctionnements. Nous avons aussi pu débugguer des problèmes qu’on ne détecte pas forcément au moment de monter l’infrastructure. Plutôt que de les découvrir à un moment critique, on a découvert tous ces problèmes durant la journée, c’est un vrai gain de temps » nous explique Richard Devers, ingénieur DevOps.

Lorsque nous avons créé le Gameday, l’un des objectifs était que cette formation puisse avoir une application concrète et immédiate dans le quotidien des participants. Suite à cette première session, l’équipe Veolia Water Technologies a automatisé l’intégralité de l’Intranet grâce aux connaissances acquises sur CloudFormation, comme le confirme Pierre Kerrinckx : “Nous avons profité du travail préparatoire du GameDay pour enrichir la stack applicative« .

Richard détaille les actions entreprises suite au GameDay : “Nous avons également travaillé sur les points d’amélioration qui avaient été mis en lumière lors des différents scénarios, et mis en place les premiers pipeline de déploiement continu. Cela a clairement changé beaucoup de choses, c’est une nouvelle façon de voir l’infrastructure, le déploiement et la mise à jour des infrastructures. Le GameDay est une excellente formation, qui ne remplace pas une formation purement théorique, mais propose une approche complémentaire. Lors d’une formation théorique, on travaille sur des exemples qui ne correspondent pas à la réalité des infrastructures sur lesquelles on travaille quotidiennement. Au contraire, lors du GameDay, on a les mains dans le moteur, et on travaille sur notre infrastructure. C’est un exercice que je recommande à tous ceux qui travaillent régulièrement sur AWS. A l’issue du Gameday, les équipes d’exploitation sont plus performantes, plus sûres d’elles et prêtes à affronter des incidents en production. C’est une vraie montée en compétence.

D2SI_Blog_AWS_GameDay (5)

Suite au succès de cette journée, l’équipe Veolia Water Technologies envisage de recommencer l’exercice, comme nous l’explique Sacha : “Nous souhaitons renouveler l’exercice du GameDay sur d’autres projets : le GameDay devrait être ajouté en tant que process à toute mise en production, tout applicatif déjà en production ou tout nouveau projet AWS. C’est la meilleure façon d’entrer dans la méthodologie Cloud, de penser son architecture et son application de façon à ce qu’elles soient résilientes, et d’oublier les backups à l’ancienne. L’avantage du Cloud est justement de faciliter ce type de test qui ne serait pas possible à organiser sur une infrastructure physique, pour des raisons de temps et de coûts. Avec le Cloud, la création et la suppression de ressources sont très simples et très peu coûteuses.”

Pour Pierre Kerrinkx, “L’implication des équipes a été un facteur de réussite. Le projet a rapidement été adopté par tous les participants, tout le monde a compris l’intérêt de l’exercice et a joué le jeu. Nous avons aussi apprécié la bonne ambiance lors de l’exercice chez D2SI, et le debriefing à l’issue de chaque scénario. C’est une expérience à recommencer, parce que cela permet d’évangéliser sur le sujet de l’automatisation. Pour les équipes connaissant mal le Cloud et l’automatisation, c’est aussi un excellent exercice ».

 

Commentaires :

A lire également sur le sujet :