@SURTITRE:STOCKAGE DES DONNEES

@TITRE:Economies, performances, sécurité...

par une bonne hiérarchisation

@CHAPO:Sur grands systèmes, mais aussi en client-serveur, les entreprises perfectionnent leur gestion des grands volumes de données, de leur stockage et de leur sauvegarde.

@TEXTE:La hiérarchisation des stockages des données a pour premier objectif de réduire les coûts. Mais "Il est difficile d'évaluer aujourd'hui le coût de stockage réel économisé, dans la mesure où les prix des supports ont été divisés par dix en cinq ans. Mais, entre la hiérarchisation et la gestion de la donnée, nous avons obtenu un gain de 10 à 12% de surface disque", indique Jean-Pierre Baudquin, responsable du support technique à l'exploitation chez Renault Automobiles.

Actuellement, le disque optique revient à environ cinq francs par méga-octets, contre dix pour le disque magnétique. Mais il va presque mille fois moins vite: quelques secondes contre quelques millisecondes. Quant aux cassettes, le prix descend à 1,25 F par méga-octet, mais les temps d'accès se comptent en minutes (selon une étude de Cheyenne).

@INTER:Téra-octets et fichiers par dizaines de milliers

@TEXTE:12%... ce n'est pas rien quand on gère quelque 2 téra-octets en ligne répartis sur des unités (de type IBM 3390) ayant une capacité unitaire de 2 giga-octets. A quoi il faut ajouter 30 000 cassettes ou cartouches 3480/90 représentant chacune 300 à 400 millions d'octets. Quand aux bandes magnétiques en rouleau, de type 3420, elles ne contiennent que 160 méga-octets en moyenne, et ne sont plus utilisées que pour les échanges avec les sites non équipés en cassette. Près de 30 000 postes de travail dans le monde ont accès à ces données, gérées sur les sites de Boulogne-Billancourt et de Saint-Quentin en Yvelines.

Même son de cloche au Crédit agricole d'Ile et Vilaine. "Il était hors de question de continuer à gérer manuellement plusieurs dizaines de milliers de fichiers. Avant, une personne faisait le tour des services pour avoir la confirmation du sort à donner à tel ou tel fichier. Maintenant, une note de service informe les utilisateurs sur les catégories affectées aux fichiers qu'ils génèrent", précise Michel Guillaume, responsable du centre informatique. Il confirme que les cassettes offrent le support le moins cher, une fois l'investissement en robotique effectué, soit environ 3 millions de F. Il s'agit le plus souvent d'une machine Storagetek. Actuellement, les fichiers qui n'ont pas été consultés depuis 30, 40 ou 100 jours, selon les cas, passent sur cassettes. Après 6 mois sans utilisation, certains fichiers peuvent même être détruits définitivement.

@INTER:Une technique répandue sur les grands systèmes

@TEXTE:C'est dans les environnements grands systèmes, MVS en tête, que la rationalisation des espaces disques s'est développée, grâce à une gestion hiérarchique des stockages. Le principe consiste à déplacer les fichiers les moins consultés et les plus volumineux vers des supports moins coûteux, plus fiables. Avec pour contrepartie un temps d'accès sensiblement plus long.

Ces opérations restent transparentes pour l'utilisateur final, ou l'application utilisatrices. Pour eux, les fichiers apparaissent toujours sur leurs disques durs, même s'ils sont en fait devenus "virtuels". Les attributs des fichiers (nom, taille, date) restent en l'état. Cependant des messages avertissent les utilisateurs "Le fichier a été migré" ou "Ce fichier sera disponible dans ... secondes".

Renault a très tôt pratiqué une politique de hiérarchisation. Il y a une dizaine d'années, les utilitaires IBM DFSDF et DFHSM assurent le déplacement des données: initialisation sur disque, déplacement de fichiers, création de bibliothèques. Il y a deux ans DFSMS est venu compléter le dispositif en permettant de préciser la nature de la donnée en termes de back-up, de hiérarchisation, de sauvegarde ou de suppression. Le système sait ainsi où il doit les placer. "Toutes les applications en temps réel restent sur disque, tandis que les données batch peuvent soit aller sur disque ou sur cassette en fonction des besoins applicatifs. Quant aux bibliothèques et à l'infocentre, nous avons instauré une migration à 35 ou 40 jours suivant la fréquence d'utilisation de la donnée. Certains fichiers de production peuvent même passer le jour de leur création vers des cartouches", explique Jean-Pierre Baudquin.

Les Galeries Lafayette ont elles aussi investi dans DFSMS en 1992, dans le cadre de leur filiale informatique Mag Info. Avant cette date, il fallait gérer manuellement les dates d'expiration des fichiers. S'assurer que les fichiers qui saturaient les disques méritaient d'y rester et pour cela partir à la recherche de leurs utilisateurs. "DFHSM assurait une gestion au volume, alors que DFSMS intervient directement au niveau des fichiers", témoigne Noël Richard, sous directeur de production.

Les Galeries gèrent 1,6 téra-octets en ligne (IBM 3390), et 53 téra-octets répartis sur quatre robots Storagetek (22 000 cassettes). "Sans SMS, nous nous serions retrouvés aujourd'hui avec 2,6 téra-octets en ligne. Et nous avons une assurance pour la durée de vie des fichiers, qui peuvent atteindre 99 mois avant qu'ils ne soient détruits. Mais, au départ, il a fallu quand même deux mois pour paramétrer les fichier", explique Noël Richard.

@INTER:Le client-serveur aussi

@TEXTE:Si la gestion hiérarchique des données est monnaie courante dans les environnements grands systèmes, elle commence tout juste à faire recette dans les architectures client-serveur. Des logiciels comme HSM (voir encadré) ou ADSM (Adstar distributed storage manager) d'IBM jouent dans ce domaine un rôle analogue à DFSMS sur les grands systèmes. Ces architectures doivent en effet faire face à la dispersion des données sur les postes de travail et les réseaux locaux qui prolifèrent. Autant que des économies, un stockage hiérarchisé et géré automatiquement apporte la sécurité, notamment en cas de sinistre, puisqu'une reconstitution à partir des fichiers de back-up devient possible.

Dans ce but, la Caisse centrale des banques populaires a recours à ADSM depuis juillet 1994 pour une trentaine de serveurs Netware, AIX et OS/2, qui supportent 1500 postes bureautiques sous Windows ou Sun/OS. Ils représentent au total une vingtaine de giga-octets à gérer sur disques et cartouches (robot Storagetek). L'automatisation du stockage hiérarchisé ne fonctionne qu'entre les serveurs et le système central sous DFSMS. Laurent Verdier, directeur de production, précise: "Les postes-clients n'utilisent pas directement ADSM pour éviter que nous perdions la maîtrise des flux". Décentraliser la gestion hiérarchique du stockage, oui. En laisser l'administration aux utilisateurs non. D'autant que la direction informatique y voit le moyen de recentraliser la gestion des données et d'entrer dans l'ère du data warehousing (entrepôt de données). @SIGNATURE:CHARLES DE LAUBIER

@LEGENDE PHOTO:Au Crédit agricole, "il était hors de question de continuer à gérer manuellement plusieurs dizaines de milliers de fichiers"

La Caisse centrale des banques populaires automatise les mouvements de données entre serveurs et grands systèmes.

//////////////SOUS-PAPIER

@TITRE:Disque optique à la Cité des Sciences

@TEXTE:La Cité des Sciences et de l'Industrie, à La Villette, a perfectionné cet été la répartition de ses fichiers entre les disques magnétiques et un jukebox de disques optiques d'une capacité de 20 giga-octets. L'outil HSM, de Cheyenne, a l'avantage de pouvoir gérer non seulement des PC mais aussi des postes Macintosh ou Unix. "Cela va nous permettre d'archiver toutes nos données, soit 10 giga-octets, soit trois fois plus qu'auparavant", commente Roger Monvoisin, responsable réseau-maintenance.

Le logiciel gère les données de façon hiérarchique et effectue automatiquement des migrations en fonction de critères définis a priori, par des scripts de migration. Le déplacement vers les disques optiques s'effectuent en général automatiquement pour les fichiers non accédés depuis un temps donné.

"Nous cherchions une pérennité de l'information pendant une durée d'au moins dix années", explique Robert Montvoisin. "Avec un tel logiciel, la durée de vie des disques optiques est apparue plus adaptée qu'une gestion Raid (Redundant array of independant disks) sur plusieurs disques durs, moins résistants à long terme". Ce dispositif fonctionne en parallèle avec un archivage sur bands numériques (DAT, digital audio tape), de deux giga-octets chacune. Elles sauvegardent chaque soir le disque du serveur avec une antériorité de quinze jours.