Qu’est-ce qu’une « bonne » sauvegarde?

On ne le répétera jamais assez, face à la menace continue des attaques cyber et ransomware, la meilleure protection reste une « bonne » sauvegarde.

Ok, très bien, mais alors qu’est-ce qu’une « bonne » sauvegarde?

Un premier réflexe peut-être de choisir un poids lourd, en se disant que plus le prestataire est gros, plus il sait de quoi il parle. Plus il est costaud, et plus il saura résister aux attaques. Comme l’Étoile Noire de la guerre des étoiles donc?

Justement. On connaît bien la fin de l’histoire, et malheureusement, pas seulement dans le cas de l’étoile noire: rappelez-vous de SBG 1 chez OVH… ou Solarwinds. Sans parler des mésaventures ininterrompues de Microsoft, et bien d’autres, encore et encore.

Très clairement, la taille du prestataire ne fait pas peur aux pirates, bien au contraire. Plus ils sont gros, plus il y a de précieuses data à pirater, et donc plus ça les attire, d’autant que ca paye très bien, et souvent plusieurs fois: chantage au déchiffrement d’abord, puis chantage à la non dissémination ensuite. Et pour finir, une exploitation en cascade des données pour monter de nouvelles attaques. En fait, en matière de sécurité, le seul intérêt de la sur-concentration est pour les prestataires, qui font des ainsi des économies d’échelle.

Alors objectivement, quels sont les avantages et inconvenient de choisir une sauvegarde chez un gros fournisseur qui va les concentrer? Surtout que justement, Octave Klaba vient de réveler (Septembre 2021) son nouveau projet d’infra de sauvegarde chez OVH.

Coté avantages, on trouve évidement des choses telles que la force d’une équipe à la mesure de l’infra-structure. Mais lorsqu’il s’agira de répondre aux sollicitations simultanées d’un très grand nombre de clients à la suite d’une catastrophe de grande ampleur, cette équipe souvent taillée pour répondre aux sollicitations courantes peut vite atteindre ses limites.

Un autre avantage à ne pas négliger du coté des poids-lourds, est leur proximité avec les autorités et les CERTs: les acteurs majeurs sont souvent informés en avant-première des failles, et peuvent donc commencer à corriger les 0-day avant la communication officielle. Mais justement, l’ANSSI – Agence nationale de la sécurité des systèmes d’information, travaille à la mise en place de CERT régionaux, qui permettra une meilleure diffusion de ces informations critiques, auprès d’un plus grand nombre de partenaires.

On peut aussi se pencher sur la technologie utilisée par les grands acteurs. Et là il faut dire qu’on est bien loin du consensus, surtout lorsque l’objectif visé est le low-cost.

BackBlaze, par exemple, a construit un DataCenter avec une énorme quantité de stockage sous forme de rangées de dizaines de baies contenant des serveurs haute densité construits sur mesure, comportant chacun des dizaines de disques durs. Pour réduire les couts, les disques sont choisis dans les gammes peu chères, et donc avec une durée de vie limitée et des pannes fréquentes. Pour compenser ces pannes fréquentes, Backblaze a mis en place une redondance 17+3 sur le modele du RAID, mais a l’echelle du DataCenter. Soit. Mais la encore, en cas de catastrophe majeure (la Californie est ravagée continuellement par les feux…), comment va se comporter cette infra-structure? D’après mes calculs, si tous les utilisateurs décidaient de récupérer leurs données en meme temps du DC Californien de Backblaze, le débit en lecture de chaque disque serait de l’ordre de 1Ko/s. Autant vider un barrage hydrolique avec tuyau d’arrosage!

OVH, de son coté vient donc d’annoncer un système qui semble utiliser des bandes, en partenariat avec Atempo. Deux poids lourds, ca devrait rassurer encore plus, d’autant que la technologie présentée innove un peu avec là-aussi une redondance Reed-Solomon de niveau 8+4 (la meme idée que BackBlaze, mais des paramètres plus sûrs).

Alors arrêtons-nous un peu sur ce choix: est-ce une bonne idée d’utiliser le codage ReedSolomon avec des bandes??

L’idée de la redondance Reed-Solomon est de diviser les données initiales en tranches (ici 8+4 donc 8 tranches) et d’ajouter des tranches de redondance (ici 4 tranches), de sorte que les 12 tranches resultantes sont totalement interchangeables: il suffit qu’il en reste au moins 8 pour reconstruire le jeu de données initial, avec une redondance qui occupe seulement 50% d’espace supplémentaire. Par rapport à une copie pure et simple, ce système demande donc moins d’espace et tolère un plus grand nombre de pannes.

Cette idée fonctionne bien avec des disques durs, car les pannes sont souvent detectées de façon précoce, suite notamment à des alertes SMART: le disque dur informe le système que des secteurs sont défectueux, ce qui n’est pas fatal, mais signe d’une fin de vie proche. Et en attendant, il peut réallouer des secteurs gardés en réserve, ce qui permet de continuer sans interruption. Mais si le disque tombe définitivement en panne, alors rien de perdu car la redondance ReedSolomon permet de reconstruire le disque perdu.

Mais dans le cas de bandes magnétiques, quand la panne sera-t-elle détectée? Contrairement à un disque dur qui fonctionne en continu, les bande sont en principe écrites, puis conservées jusqu’au jour ou les données doivent être récupérées, possiblement des années plus tard. (OVH annonce une conservation de 1 a 10 ans.) Et donc l’idée semble être que si par malchance l’une des bandes est perdue au moment de récupérer les données, alors il restera les 11 autres. Ou 10 autres si deux sont perdues?

En fait, le problème est bien là: si au bout de quelques années, une bande a été endommagée, pourquoi espérer que les autres seront encore en bon état? On peut meme s’attendre au contraire: si une bande a été endommagé, alors il y a de grandes chances qu’elles le soient toutes! En effet, elles auront a priori toutes été achetées en meme temps, et comme BackBlaze l’a si justement montré dans le cas des disques durs, les pannes ou défaut sur le matériel surviennent souvent en paquet, par lots. Donc bien que la probabilité de panne soit certainement faible sur le volume total, la probabilité que d’autres pannes se produisent quand une s’est déjà produite est elle très importante si les supports ont été achetés en même temps. Mais dans le cas de disques durs, comme les pannes sont détectées rapidement et au fur et à mesure, elle peuvent être réparées vite, avant que les autres niveaux de redondance ne tombent aussi en panne. Mais dans le cas de bandes, à moins que les supports ne soient vérifiés très régulièrement, la redondance ReedSolomon ne semble a priori pas pertinente.

Soit, il suffit de vérifier le support régulièrement dans ce cas. Oui, mais non. Dans le cas de support sur bande avec un robot de chargement, contrairement aux supports de type disque dur, l’accès séquentiel implique de monopoliser un lecteur pendant très longtemps pour accéder aux données. Et pendant ce temps là, la tête ne peut pas aller lire une autre bande. A la longue, au fur et à mesure que le nombre de bandes va augmenter, la vérification de toutes les bandes va devenir de plus en plus compliquée. Je soupçonne même que la solution ReedSolomon a été choisie justement pour ne pas avoir besoin de s’imposer cette vérification continuelle.

La solution sur bande pose aussi le problème de l’accès en géneral: comme dans le cas de BackBlaze, si à la suite d’une catastrophe de grande ampleur (inondation de Paris, tremblement de terre, etc) de nombreux clients veulent récupérer leur sauvegarde en même temps, il va falloir être très très patient…

De leur coté, chez Scaleway, avec C14, ils ont choisi aussi d’innover de belle façon, avec un bunker situé 25 mètres sous terre à Paris. Suivant un peu l’idée de BackBlaze, ils ont décidé d’innover sur le matériel, mais avec une technologie qui leur permet d’éteindre les disques inutilisés par paquet, pour faire des économies d’énergie. Un très très beau projet, très innovant, et éco-responsable. Rien à dire, c’est du A+ en matière de DataCenter, comme le reste des infra Scaleway d’ailleurs.

Enfin, si quand même, en cherchant bien, on peut trouver à redire, même si on les aime bien (et OVH aussi 🙂 ). Le problème de Scaleway, et de toutes les solutions en DataCenter en général, c’est la concentration. Le bunker a beau autre 25 mètres sous terre, et, espérons-le, bien protégé contre les inondations, il reste un point central de vulnérabilité. Au lendemain de l’anniversaire des attaques du 11 septembre, on peut par exemple s’interroger sur la sécurisation d’une telle infra, aussi bien contre les menaces de l’exterieur que de l’intérieur. Car plus une infra est grosse, plus elle a besoin de personnels. Et comme tout le monde le sait, le facteur humain est un point faible de toute système informatique. Bien sur, le terrorisme, les activités hostiles de puissances étrangères ou les simples actes de malveillance sont des cas de vulnérabilité extrêmes, peu fréquents. Mais toujours possibles. Quant aux erreurs humaines, elles sont souvent prises en compte par apprentissage: lorsqu’une erreur est détectée, les processus de qualité imposent en principe d’empêcher qu’elle ne puisse se reproduire. Mais dans le cas d’une nouvelle technologie, le recul est faible, et le risque d’autant plus important que la techno est jeune. Et avec un infra fortement concentrée, le risque est d’autant plus grand que le nombre d’équipements potentiellement impactés par l’erreur est important.

Évidemment, je ne vais pas terminer cet article sans donner quelques précisions sur la solution de sauvegarde que nous avons développée chez Inspeere, et qui, d’après moi, répond parfaitement à toutes ces problématiques, et bien plus encore:

  • Notre solution est décentralisée: à l’opposé du nuage en DataCenter, notre solution utilise un nuage en « Edge », et donc avec une faible concentration de données sur les sites de sauvegarde. L’intérêt pour les pirates est donc moindre.
  • Notre solution est conçue pour fonctionner de façon autonome, sans avoir besoin de compétence technique sur les sites de stockage;
  • Nous utilisons un stockage sur disques durs avec une forte redondance ReedSolomon de 32+16: comme OVH notre solution n’a besoin que de 50% d’espace supplémentaire, mais elle peut supporter jusqu’à 16 défaillances de sites de stockage sur les 48 au total
  • Les données sont chiffrées et compressées à la source, de sorte qu’elles sont absolument indéchiffrables et inexploitables en cas de compromission d’un des sites
  • Bien que nous ayons innové sur certains points, notamment la division de flux ZFS en ReedSolomon, notre solution est construite en grande partie à partir de technologies OpenSource robustes et éprouvées, gage de fiabilité et de stabilité
  • Notre solution s’installe typiquement dans la DMZ de nos clients; elle est sécurisée de façon très efficace par notre système (une base Linux, connu pour être très peu exposé aux attaques Cyber), mais peut aussi bénéficier des éventuels dispositifs de sécurité de l’entreprise, comme les solutions d’IPS. Le fait d’être placé dans des environnements sécurisés de façon différente par les entreprises, et in fine, d’être connectés à Internet par des opérateurs différents, constitue une diversité qui renforce encore la sécurité de notre solution;
  • En interne, nos nœuds de stockage s’appuient exclusivement sur la technologie ZFS, qui possède la bonne propriété d’être très résistante aux attaques par rançongiciels par construction: le chiffrement des fichiers ZFS est impossible sans détruire le système, et donc il interdit la possibilité de demander une rançon en échange d’une remise en service. Autrement dit, notre solution est incompatible avec le business model du rançongiciel, ce qui reste a priori la meilleure défense contre ce fléau
  • Nous favorisons l’utilisation de disques reconditionnés, ce qui présente de nombreux avantages: des coûts plus faibles pour le client, un bilan carbone excellent, et de plus nous évitons de fait les effets de grandes séries, de sortes que nos pannes matérielles sont bien indépendantes les unes des autres. Ajouté au fait que notre système surveille de très près les alertes matérielles, nous obtenons un système très robuste et fortement tolérant aux pannes
  • La technologie ZFS est unique par le fait qu’elle vérifie continuellement l’état de conservation des données, et sait parfaitement détecter et réparer les erreurs de stockage. Ce mécanisme de bas niveau, est indépendant de celui de la redondance ReedSolomon 32+16 que je mentionnais ci-dessus, de sorte que les deux se complémentent. Nous pouvons garantir à 100% la fiabilité de notre stockage en terme d’intégrité et de longévité, et ce, quel que soit le volume sauvegardé (ZFS = Zetabytes-FileSystem !)
  • Notre système est rapide! Lors de la récupération des données, quand vous avez subi une catastrophe et que vous avez besoin de tout récupérer rapidement, notre solution est la plus rapide que vous puissiez trouver, car elle évite toute forme de goulot d’étranglement (pas de tuyau d’arrosage pour vider un barrage). En effet, les données sont récupérées simultanément de toutes les sources, qui fonctionnent alors selon le même schéma que le téléchargement Pair-à-Pair, mais avec des protocoles bien plus sécurisés. Et en cas de catastrophe majeure, si de nombreux utilisateurs ont besoin de récupérer leur données en même temps, le nombre fait la force, et tous les sites de stockages peuvent répondre simultanément au maximum de leur capacité.

Olivier Dalle, CTO Inspeere