Sommaire : Trois questions à Pierre Cubaud, Cedric | L'actualité de la semaine | Théories et concepts | Enseignement | La recherche en pratique | Dans les entreprises | Manifestations | Le livre de la semaine | Détente |
ABONNEMENT/DESABONNEMENT | PAGE D'ACCUEIL DE L'ASTI | REPERTOIRE | NUMEROS PRECEDENTS
- Sur vos agendas, notre journée du 15 mai "Langages et ontologies des Stic" : De quoi parlons nous ? Comment en parler ? - Tous les mardis (hors périodes de congés), l'Asti vous convie à un déjeuner cordial et informel. Rendez-vous au siège de l'Asti, 33 rue de Trévise (Paris 9e, métro Cadet ou Grands boulevards), à partir de 12 h 30. Avec nous ce mardi 26 mars : Thomas Baudel (président de l'Afihm) et Colette Hoffsaes (Creis). |
Asti-Hebdo Au Cnam, il existe deux bibliothèques numériques : ABU (Association des Bibliophiles Universels) et Cnum (Conservatoire numérique des Arts et Métiers). Qu'est-ce qui vous a conduit à être moteur dans la création de ces bibliothèques numériques ?
Pierre Cubaud : En 1993, lorsque le projet ABU a démarré, les logiciels Web étaient émergents. La communauté d'utilisateurs était restreinte ; c'étaient surtout des chercheurs. Il y avait déjà de grosses archives de textes, mais le texte numérisé était essentiellement accessible par FTP (transfert de fichier). En France, à l'époque, les deux acteurs principaux étaient l'Inalf (Institut national de la langue française) qui a constitué une base de données à partir d'extraits d'oeuvres utilisées par des linguistes, et l'établissement public de la Bibliothèque de France qui cherchait à numériser un très gros corpus à des fins de lecture. Dans tous les cas, il s'agit de textes du domaine public.
Le projet ABU est parti d'une vingtaine de textes du domaine public, dont quelques textes de Descartes. Ce fonds se constitue bénévolement. Aujourd'hui, nous disposons d'environ 300 textes assez importants. Quant au Conservatoire numérique (Cnum), il est constitué à partir du fonds ancien de la bibliothèque du Cnam.
Hebdo : Quelles techniques mettez-vous en oeuvre, de quels moyens disposez-vous ?
P.C. : Un projet de bibliothèque numérique comprend trois aspects : numérisation, diffusion, consultation. La majorité des textes ont été numérisés par scanner. En ce qui concerne ABU, les fichiers sont ensuite traités par un logiciel OCR (reconnaissance optique de caractères). Mais ce traitement est insuffisant pour un document complexe, comprenant différents niveaux de titres, des notes, figures, etc. Il faut aller plus loin dans la compréhension du document, l'analyse du document, utiliser des normes de représentation, de description de structure, des techniques de compression, etc. Les techniques utilisées actuellement pour la reconnaissance ont encore des taux d'erreur assez important (de l'ordre de 10%) et, même si les résultats s'améliorent constamment, les progrès sont de moins en moins spectaculaires.
Hebdo : Quels sont les problèmes qui restent à résoudre ?
P.C. : Le problème de la copie et de délocalisation de la copie est éradiqué. Le principal problème restant à résoudre est l'usage fin du document, par exemple la localisation d'une information. Pour ABU, la recherche est basée sur l'indexation plein texte. Pour le Cnum, elle se fait à partir de la table des matières, de la table des illustrations et des notices, le corps du texte étant en fac-similé.
Dans notre équipe, nous travaillons surtout sur le développement d'interfaces de consultation. L'objectif est d'atteindre un confort d'utilisation au moins égal à celui qu'offre le livre. Or les interfaces actuelles sont extrêmement limitantes. Le document numérisé n'est qu'un « fantôme ». Les informations le concernant sont transmises sous forme trop abstraite (nombre de pages, de chapitres, etc.). Nous étudions l'utilisation d'interfaces 3D pour la consultation et le classement automatique de bibliothèque. Les interfaces de lecture devraient faire appel à de nouvelles métaphores de navigation, développées en collaboration avec des ergonomes. De plus, nous visons une diffusion multimédia qui, en ce qui concerne ABU, permette également l'accès aux aveugles et mal-voyants.
Par ailleurs, bien que le sujet de la bibliothèque numérique soit très médiatisé, c'est pourtant une micro-industrie. ABU et le Cnum marchent bien parce que c'est gratuit (environ 6000 téléchargements d'ABU par mois). Les développements se sont faits sans aucune aide extérieure pour le Cnum : uniquement sur les crédits du Cnam, les machines du Cnam et avec des livres de la bibliothèque du Cnam. Actuellement, des réflexions interministérielles sont en cours, mais comme divers ministères sont impliqués (enseignement supérieur, recherche, culture, secrétariat d'Etat au patrimoine), j'ai l'impression qu'il manque une vraie coordination au niveau national en ce qui concerne la numérisation et la diffusion de livres électroniques.
Propos recueillis par Claire Rémy
Pierre Cubaud est maître de conférences au département informatique du Cnam et
chercheur au Cedric (Centre d'études et de recherches en informatique du Cnam)
au sein de l'équipe «multimédia et interaction homme-machine». Sites :
Cnam, Cnum,
Abu, page
personnelle.
- Le communiqué du
ministère
- les
discours.
Présent à Accra (Ghana) la semaine dernière pour l'assemblée générale de l'Icann, Sébastien Bachollet, délégué général adjoint du Cigref, a défendu cette position auprès du comité directeur.
En particulier, la proposition d'une participation directe des gouvernements nationaux, en leur demandant d'assurer une partie du financement de l'Icann, est une erreur. D'une part parce que le pouvoir risque d'être accaparé par un nombre limité d'États, dont les États-Unis qui jouent aujourd'hui encore un rôle trop fort au sein de l'Icann. D'autre part parce que certains gouvernements n'auront pas les moyens de financer et donc d'être représentés au sein de l'organisation.
Le Cigref recommande un financement basé sur une participation correspondant aux services utilisés pour chaque nom de domaine enregistré. De cette façon, les utilisateurs finaux contribueront pour leur utilisation du système des noms de domaines (DNS) sur une base annuelle et soutiendront le travail mené par l'Icann.
Enfin, il est crucial que les fonctions politiques soient distinctes des fonctions d'exécution. En particulier, la charte du nouvel organisme ne doit pas être définie par l'équipe des permanents. Le rôle de cette dernière doit être uniquement de la mettre en oeuvre.
Ce site est lié à un nouveau projet, "Mutualiser l'effort de montée en compétences sur XML", à destination des francophones. Ce projet a pour objectif, au travers de la création d'un site Internet et de la mutualisation d'actions d'étude, d'information et de formation, de partager une information dynamique et à forte valeur ajoutée sur les développements des technologies et des usages d'XML.
Le projet "Mutu-XML" est conduit sous l'égide de la Fing (Fondation pour l'Internet Nouvelle Génération) et soutenu par Oasis Open. À noter, comme vous le savez peut-être que le ministère de l'Education nationale, de la recherche et de la technologie, ainsi que la MTIC, sont tous deux adhérents de la Fing.
Par ailleurs, un autre projet pourrait vous intéresser, qui s'est mis en place en janvier 2002, pour promouvoir l'utilisation d'XML. "Pour atteindre cet objectif de partage et d'échange de documents XML en milieu ouvert, Mutu-XML, Edifrance (Association pour le développement des échanges électroniques professionnels) et le GFII (Groupement Français de l'Industrie de l'Information), avec le soutien de la Fing, ont lancé l'initiative de la création d'un répertoire des modèles pour les applications XML, privés et publics"
Les méthodes allient des textes en diverses langues (langue à assimiler et langue de référence) pouvant impliquer la cohabitation de plusieurs alphabets, des textes en phonétique pour la prononciation, des illustrations pour la compréhension, différents types d'exercices... Jouve a structuré l'ensemble des données afin de pouvoir assurer leur diffusion au format numérique. Cette structuration implique le découpage des textes selon le type d'informations mais permet aussi l'intégration de son. Grâce au balisage XML, les leçons sur internet et assistants personnels associent son et texte. Les utilisateurs peuvent ainsi travailler leur prononciation grâce à l'écoute des phrases disponibles et à la fonction audio-comparative.
Vous avez jusqu'au 8 avril 2002, 12 heures, pour retirer vos dossiers de candidature et jusqu'au 9 avril 2002, 17 heures, pour les déposer. Pour en savoir plus
Le même article signale que le Syntec et le Cigref se sont mis d'accord pour travailler sur un label. Premiers résultats attendus pour l'automne prochain.
Programme provisoire (certaines interventions restent à confirmer) :
- 9h30. Accueil : Yves Lecourtier : Les Stic, un carrefour de langages
Ouverture : Francis Jutand, directeur du département Stic du CNRS.
- Session1. Informatique, communications, Stic. Avec Jean-Pierre Verjus
(Inria) Claude Guegen (GET) Thérèse Hardin (Specif), Malik Ghallab (Inter GDR).
- Session2. Dimensions historiques et éthiques du vocabulaire
des Stic. Avec Colette Hoffsaes (Creis), Pierre Berger (Asti),
Annie Marcheix (AILF).
l
DEJEUNER
Session 3. Fondements des Stic. Avec Gérard Montseny (Laas), Gilles
Dowek (Inria) et P. Descoins.
Session 4. Des Stic et des personnes. Avec Eddie Soulier
(Université de technologie de Troyes), Thomas Baudel (Afihm), J.P.
Pépin (Cigref) et Jacques Baudé (EPI).
17h30. Conclusion : programme de travail de l'Asti pour 2002
Bertrand Braunschweig gagne le prix de la meillere réponse avec, sur Google, toutes options activées: "asti hebdo braunschweig AFIA ECAI"
A plus ?
NDLR : De source inconnue