… et c’est arrivé ! L’incendie qui a ravagé des locaux de l’hébergeur OVH la nuit du 9 mars a détruit des milliers de serveurs internet. Aussi nos outils de travail, nos sites internet et nos applications auraient pu partir en fumée et les données collectées et publiées minutieusement au fil du temps auraient pu être détruites à jamais.
La nuit du 9 mars un incendie dans les locaux strasbourgeois de l’hébergeur OVH a provoqué la destruction d’un datacenter où était hébergé un nombre innombrable de sites internet. C’est en arrivant le matin devant mon ordinateur, la tasse de café à la main et les yeux encore un peu embrouillés, que la page d’accueil de mon navigateur reste en attente de connexion sans plus donner de signe de vie : mauvais signe, très mauvais signe !
J’ouvre une page d’actualités, et là je trouve l’explication : un incendie s’est déclenché dans la nuit détruisant quelque chose comme cinq étages de 500 mètres carrés remplis d’ordinateurs et d’autres équipements techniques, dont le serveur où mon application d’organisation personnelle était hébergée.
Impacte heureusement minimal
La page d’accueil de mon navigateur est connectée au « Blognotes », un petit intranet et organiseur personnel, où je consulte chaque matin le planning et les rappels importants pour la journée qui commence : les rendez-vous et les réunions, les tâches urgentes, tout ce qu’il ne faut absolument pas oublier. Le « Blognotes » est une application en ligne, hébergée dans un serveur mis à disposition par OVH. Et c’est ce serveur qui, avec plusieurs milliers d’autres serveurs, est parti en fumée.
Un frémissement parcourt mon dos, partant du bas et remontant vers la nuque, au moment où mon attention se porte aux sites de mes clients. Qu’en est-il ? Sont-ils aussi partis en fumée ? Après une vérification rapide c’est le soulagement : tout fonctionne correctement. En effet, le serveur des applications clientes est hébergé dans un datacentre situé dans le Nord pas de Calais, bien loin des ruines fumantes du site alsacien. Le pire a été évité, même sans organisateur personnel je peux travailler correctement quelques temps, et l’impact sur les activités de mes clients est minimal.
Et si tout avait été détruit ?
Mais que se serait-il passé si la catastrophe avait bien été là ? Si c’était l’hébergement des sites clients qui avait brûlé la nuit du 9 mars ? Sans doute les équipes techniques d’OVH, mobilisées dans l’urgence, réinstalleront petit à petit l’infrastructure endommagée en la déplaçant dans les autres 13 datacenters que l’entreprise déploie en Europe : mais en combien de temps ? Et arriveront-ils à récupérer les données de tout ce qui a été détruit ? Quelle stratégie mettre en place en attendant que l’entreprise, certainement sous le choc d’une crise majeure, mette en place des solutions ?
L’engagement pris avec mes clients m’aurait poussé à ne pas attendre : tout en essayant de contacter les services techniques pour obtenir le maximum d’informations, j’aurai démarré aussitôt le redéploiement des sites dans de nouveaux serveurs, grâces aux sauvegardes complètes que mon infrastructure technique effectue automatiquement pendant la nuit. Un rude travail quand même, qui aurait pris toute la journée et sans doute une partie de la nuit suivante, pour redémarrer progressivement quelques dizaines d’applications et de sites dont je me porte garant, et reprogrammer tous les paramètres d’accès et de sécurité heureusement bien documentés lors des installation précédentes.
C’est trois jours plus tard qu’un message des équipes techniques de OVH annonçait qu’il fallait attendre encore une dizaine de jours pour que les équipements strasbourgeois puissent être redémarrés, et que tout ce qui avait été détruit dans l’incendie ne pourrait plus être remis en service.
C’est clair, pour redémarrer ce qui avait été endommagé il fallait repartir de zéro et tout réinstaller dans de nouvelles machines situées dans le datacenter de Gravelines, où les capacités d’hébergement allaient être renforcées. Dans un geste commercial, OVH offre bien six mois de gratuité sur ses produits, mais… oh surprise : les nouvelles machines mises à disposition sont 50% plus chères que celle qui, jusqu’à il y a quelques jours, remplissait parfaitement les tâches demandées.
Une infrastructure solide distincte de l’opérateur
Quand un événement aussi important touche de près le cœur de mon activité, les questions s’activent et reviennent en rafale à l’esprit, et sollicitent un bilan approfondi sur les moyens que j’ai mis en œuvre pour prévoir et contrer tout type de dysfonctionnement. Choisir un partenaire comme OVH est un choix judicieux, compte tenu de la taille et de la stabilité de cette entreprise qui est le plus important hébergeur en Europe, mais ne faut-il garder toujours des solutions opérationnelles alternatives, même si la probabilité de devoir y recourir reste faible ?
L’infrastructure de FBServices est construite autour d’une architecture composée de trois serveurs, chacun situé géographiquement dans des lieux distincts et éloignés, et les données sont présentes de façon redondante au moins à deux endroits, confiés à des opérateurs différents.
Le serveur DOC2 fournit toute la documentation technique, les annotations, les particularités de chaque site et traitement. C’est une ressource précieuse, disponible aussi quand le serveur de production est à l’arrêt. DOC2 surveille constamment le deux serveurs ZEPHYR (production) et ARTEMIS (sauvegardes et archives), ainsi que chaque site client, et émet des alertes par mail et par SMS quelques minutes après qu’un dysfonctionnement quelconque est détecté. C’est ce serveur qui a été détruit et qu’il faut maintenant redéployer.
Le serveur ZEPHYR est le serveur de production, où se trouvent toutes les applications et les sites des clients. C’est une machine puissante optimisée pour le maximum de performances et de sécurité. Une sauvegarde FTP locale sur le datacenter, associée au serveur, permet en cas de panne, de piratage, ou simplement d’une erreur de manipulation de retrouver rapidement les fichiers sauvegardés la veille.
ARETEMIS est la machine dédiée aux sauvegardes, qui travaille la nuit pour stocker tous les sites et les données déployés sur les deux autres serveurs, ainsi qu’une sauvegarde complète du poste de travail. Les sauvegardes sont historisées, permettant de retrouver une configuration telle comme elle était plusieurs jours en arrière.
De plus, le cloud privé reçoit toutes les données des travaux en cours, synchronisées en temps réel entre le poste de travail et l’ordinateur portable toujours prêt pour les déplacements. Le cloud offre une souplesse très importante, permettant de retrouver chaque fichier bien à jour sur des machines différentes, et aussi quand on se trouve loin de ses ordinateurs en y accédant par une connexion internet sécurisée.
Finalement, en conclusion du bilan :
- L’accident a montré que même ce qui semble improbable, voir impossible, peut arriver
- Les sauvegardes sont fiables quand elles sont dupliquées de façon redondante et délocalisée
- L’infrastructure actuelle, mise en place depuis l’été dernier et qui avait coûté plusieurs semaines d’étude et de travail pour sa mise en place, aurait été efficace même si l’impact de l’incendie chez OVH avait été maximal