Association Française des
Sciences et Technologies de l'Information

Hebdo
No 68. 25 mars 2002

Sommaire : Trois questions à Pierre Cubaud, Cedric | L'actualité de la semaine | Théories et concepts | Enseignement | La recherche en pratique | Dans les entreprises | Manifestations | Le livre de la semaine | Détente |

ABONNEMENT/DESABONNEMENT | PAGE D'ACCUEIL DE L'ASTI | REPERTOIRE | NUMEROS PRECEDENTS

- Sur vos agendas, notre journée du 15 mai "Langages et ontologies des Stic" : De quoi parlons nous ? Comment en parler ?

- Tous les mardis (hors périodes de congés), l'Asti vous convie à un déjeuner cordial et informel. Rendez-vous au siège de l'Asti, 33 rue de Trévise (Paris 9e, métro Cadet ou Grands boulevards), à partir de 12 h 30. Avec nous ce mardi 26 mars : Thomas Baudel (président de l'Afihm) et Colette Hoffsaes (Creis).

Trois questions à Pierre Cubaud

Chercheur au Cedric.

"La bibliothèque numérique est un sujet très médiatisé, mais c'est une micro- industrie"

 

Asti-Hebdo Au Cnam, il existe deux bibliothèques numériques : ABU (Association des Bibliophiles Universels) et Cnum (Conservatoire numérique des Arts et Métiers). Qu'est-ce qui vous a conduit à être moteur dans la création de ces bibliothèques numériques ?

Pierre Cubaud : En 1993, lorsque le projet ABU a démarré, les logiciels Web étaient émergents. La communauté d'utilisateurs était restreinte ; c'étaient surtout des chercheurs. Il y avait déjà de grosses archives de textes, mais le texte numérisé était essentiellement accessible par FTP (transfert de fichier). En France, à l'époque, les deux acteurs principaux étaient l'Inalf (Institut national de la langue française) qui a constitué une base de données à partir d'extraits d'oeuvres utilisées par des linguistes, et l'établissement public de la Bibliothèque de France qui cherchait à numériser un très gros corpus à des fins de lecture. Dans tous les cas, il s'agit de textes du domaine public.

Le projet ABU est parti d'une vingtaine de textes du domaine public, dont quelques textes de Descartes. Ce fonds se constitue bénévolement. Aujourd'hui, nous disposons d'environ 300 textes assez importants. Quant au Conservatoire numérique (Cnum), il est constitué à partir du fonds ancien de la bibliothèque du Cnam.

Hebdo : Quelles techniques mettez-vous en oeuvre, de quels moyens disposez-vous ?

P.C. : Un projet de bibliothèque numérique comprend trois aspects : numérisation, diffusion, consultation. La majorité des textes ont été numérisés par scanner. En ce qui concerne ABU, les fichiers sont ensuite traités par un logiciel OCR (reconnaissance optique de caractères). Mais ce traitement est insuffisant pour un document complexe, comprenant différents niveaux de titres, des notes, figures, etc. Il faut aller plus loin dans la compréhension du document, l'analyse du document, utiliser des normes de représentation, de description de structure, des techniques de compression, etc. Les techniques utilisées actuellement pour la reconnaissance ont encore des taux d'erreur assez important (de l'ordre de 10%) et, même si les résultats s'améliorent constamment, les progrès sont de moins en moins spectaculaires.

Hebdo : Quels sont les problèmes qui restent à résoudre ?

P.C. : Le problème de la copie et de délocalisation de la copie est éradiqué. Le principal problème restant à résoudre est l'usage fin du document, par exemple la localisation d'une information. Pour ABU, la recherche est basée sur l'indexation plein texte. Pour le Cnum, elle se fait à partir de la table des matières, de la table des illustrations et des notices, le corps du texte étant en fac-similé.

Dans notre équipe, nous travaillons surtout sur le développement d'interfaces de consultation. L'objectif est d'atteindre un confort d'utilisation au moins égal à celui qu'offre le livre. Or les interfaces actuelles sont extrêmement limitantes. Le document numérisé n'est qu'un « fantôme ». Les informations le concernant sont transmises sous forme trop abstraite (nombre de pages, de chapitres, etc.). Nous étudions l'utilisation d'interfaces 3D pour la consultation et le classement automatique de bibliothèque. Les interfaces de lecture devraient faire appel à de nouvelles métaphores de navigation, développées en collaboration avec des ergonomes. De plus, nous visons une diffusion multimédia qui, en ce qui concerne ABU, permette également l'accès aux aveugles et mal-voyants.

Par ailleurs, bien que le sujet de la bibliothèque numérique soit très médiatisé, c'est pourtant une micro-industrie. ABU et le Cnum marchent bien parce que c'est gratuit (environ 6000 téléchargements d'ABU par mois). Les développements se sont faits sans aucune aide extérieure pour le Cnum : uniquement sur les crédits du Cnam, les machines du Cnam et avec des livres de la bibliothèque du Cnam. Actuellement, des réflexions interministérielles sont en cours, mais comme divers ministères sont impliqués (enseignement supérieur, recherche, culture, secrétariat d'Etat au patrimoine), j'ai l'impression qu'il manque une vraie coordination au niveau national en ce qui concerne la numérisation et la diffusion de livres électroniques.

Propos recueillis par Claire Rémy

Pierre Cubaud est maître de conférences au département informatique du Cnam et chercheur au Cedric (Centre d'études et de recherches en informatique du Cnam) au sein de l'équipe «multimédia et interaction homme-machine». Sites : Cnam, Cnum, Abu, page personnelle.


L'actualité de la semaine

Signature du contrat d'action pluriannuel du CNRS

Roger-Gérard Schwartzenberg a signé, jeudi 21 mars, le contrat d'action pluriannuel du CNRS, en présence de Gérard Mégie, président du CNRS, et de Geneviève Berger, directrice générale du CNRS. Le ministre a souligné la large concertation dont a résulté ce contrat d'action qui "fixe une stratégie scientifique claire au CNRS". Attribution des "moyens de réagir face au défi scientifique", renforcement de l'interdisciplinarité, schéma pluriannuel de recrutement, généralisation de la pratique contractuelle à l'intérieur de l'établissement, approfondissement du partenariat avec les universités, coordination par le CNRS d'une dizaine de réseaux d'excellence européens, font également partie des points forts inscrits dans ce contrat.

- Le communiqué du ministère
- les discours.

Le Cigref souhaite une réforme de l'Icann

La réforme de l'Icann, autorité de régulation des noms de domaines, doit se faire avec les utilisateurs d'internet. Le Cigref partage le constat fait par le président de l'Icann, Stuart Lynn, d'un besoin urgent de réforme. Mais il considère que sa sa proposition actuelle n'est pas acceptable, avant tout parce qu'elle exclut du schéma les entreprises utilisatrices.

Présent à Accra (Ghana) la semaine dernière pour l'assemblée générale de l'Icann, Sébastien Bachollet, délégué général adjoint du Cigref, a défendu cette position auprès du comité directeur.

En particulier, la proposition d'une participation directe des gouvernements nationaux, en leur demandant d'assurer une partie du financement de l'Icann, est une erreur. D'une part parce que le pouvoir risque d'être accaparé par un nombre limité d'États, dont les États-Unis qui jouent aujourd'hui encore un rôle trop fort au sein de l'Icann. D'autre part parce que certains gouvernements n'auront pas les moyens de financer et donc d'être représentés au sein de l'organisation.

Le Cigref recommande un financement basé sur une participation correspondant aux services utilisés pour chaque nom de domaine enregistré. De cette façon, les utilisateurs finaux contribueront pour leur utilisation du système des noms de domaines (DNS) sur une base annuelle et soutiendront le travail mené par l'Icann.

Enfin, il est crucial que les fonctions politiques soient distinctes des fonctions d'exécution. En particulier, la charte du nouvel organisme ne doit pas être définie par l'équipe des permanents. Le rôle de cette dernière doit être uniquement de la mettre en oeuvre.

Statistiques sur la société de l'information

La Diffusion Paris 7 signale que Bruxelles vient de rendre disponibles, sur son site des statistiques sur la société de l'information en Europe. (Diffusion Paris 7)

Théories et concepts

XML : des pointeurs

Marie-Laure Simon, de la société Tireme, nous envoie la lettre suivante : En cherchant "XML" dans le répertoire de l'Asti, j'ai trouvé des articles parus dans la rubrique "l'actualité de la semaine", ainsi qu'un lien vers le site de Robin Cover http://xml.coverpages.org/sgml-xml.html. Peut-être souhaiterez-vous envisager d'ajouter à votre répertoire le site d'intérêt public www.mutu-xml.org.

Ce site est lié à un nouveau projet, "Mutualiser l'effort de montée en compétences sur XML", à destination des francophones. Ce projet a pour objectif, au travers de la création d'un site Internet et de la mutualisation d'actions d'étude, d'information et de formation, de partager une information dynamique et à forte valeur ajoutée sur les développements des technologies et des usages d'XML.

Le projet "Mutu-XML" est conduit sous l'égide de la Fing (Fondation pour l'Internet Nouvelle Génération) et soutenu par Oasis Open. À noter, comme vous le savez peut-être que le ministère de l'Education nationale, de la recherche et de la technologie, ainsi que la MTIC, sont tous deux adhérents de la Fing.

Par ailleurs, un autre projet pourrait vous intéresser, qui s'est mis en place en janvier 2002, pour promouvoir l'utilisation d'XML. "Pour atteindre cet objectif de partage et d'échange de documents XML en milieu ouvert, Mutu-XML, Edifrance (Association pour le développement des échanges électroniques professionnels) et le GFII (Groupement Français de l'Industrie de l'Information), avec le soutien de la Fing, ont lancé l'initiative de la création d'un répertoire des modèles pour les applications XML, privés et publics"


Enseignement

La méthode e-Assimil...

Assimil choisit l'expertise de Jouve en traitement de l'information pour décliner ses méthodes d'auto-apprentissage aux formats numériques (Internet et PDA).

Les méthodes allient des textes en diverses langues (langue à assimiler et langue de référence) pouvant impliquer la cohabitation de plusieurs alphabets, des textes en phonétique pour la prononciation, des illustrations pour la compréhension, différents types d'exercices... Jouve a structuré l'ensemble des données afin de pouvoir assurer leur diffusion au format numérique. Cette structuration implique le découpage des textes selon le type d'informations mais permet aussi l'intégration de son. Grâce au balisage XML, les leçons sur internet et assistants personnels associent son et texte. Les utilisateurs peuvent ainsi travailler leur prononciation grâce à l'écoute des phrases disponibles et à la fonction audio-comparative.

Le communiqué


La recherche en pratique

Le CNRS recrute 833 ingénieurs et personnels techniques

Dans plus de 200 métiers intéressant les sciences du vivant, la chimie, l'environnement, l'informatique, l'électronique, les matériaux, l'instrumentation scientifique, les sciences humaines, la communication, la documentation, l’édition, l'administration, la gestion, la logistique... le CNRS recrute 833 ingénieurs et personnels techniques.

Vous avez jusqu'au 8 avril 2002, 12 heures, pour retirer vos dossiers de candidature et jusqu'au 9 avril 2002, 17 heures, pour les déposer. Pour en savoir plus

Etudes doctorales

La Maison des universités signale que le ministère de la Recherche :
- met à dispostion en FTP (ftp://trf.education.gouv.fr/pub/rechtec/brochure/etudesdoc2002.pdf) une plaquette sur les études doctorales
- ouvre un portail destine aux doctorants, futurs doctorants et post-doctorants : http://www.formation-recherche.info/

Dans les entreprises

Qualité des logiciels

François Dufaux, président du Syntec informatique, répond aux questions de Thierry Parisot (Le Monde Informatique du 22 mars) sur la mauvaise qualité des logiciels que stigmatisent les utilisateurs. "Les grands éditeurs consacrent de 25 à 30% de leur chiffre d'affaires à la R&D, à la fois pour ajouter de nouveaux modules et pour effectuer des tests de plus en plus complets".

Le même article signale que le Syntec et le Cigref se sont mis d'accord pour travailler sur un label. Premiers résultats attendus pour l'automne prochain.


Manifestations

Ontologies et langages des Stic. De quoi parlons nous ? Comment en parler ?

Journée organisée par le groupe de travail "Portail/Dictionnaire" de l'Asti (ENST, rue Barrault à Paris, le mercredi 15 mai 2002).

Programme provisoire (certaines interventions restent à confirmer) :
- 9h30. Accueil : Yves Lecourtier : Les Stic, un carrefour de langages Ouverture : Francis Jutand, directeur du département Stic du CNRS.
- Session1. Informatique, communications, Stic. Avec Jean-Pierre Verjus (Inria) Claude Guegen (GET) Thérèse Hardin (Specif), Malik Ghallab (Inter GDR).
- Session2. Dimensions historiques et éthiques du vocabulaire des Stic. Avec Colette Hoffsaes (Creis), Pierre Berger (Asti), Annie Marcheix (AILF). l
DEJEUNER
Session 3. Fondements des Stic. Avec Gérard Montseny (Laas), Gilles Dowek (Inria) et P. Descoins.
Session 4. Des Stic et des personnes. Avec Eddie Soulier (Université de technologie de Troyes), Thomas Baudel (Afihm), J.P. Pépin (Cigref) et Jacques Baudé (EPI).
17h30. Conclusion : programme de travail de l'Asti pour 2002

ICEIS 2003

Le CA de l'Asti a accordé son parrainage au Congrès ICEIS-2003. Voir le site d'Iceis 2002

Le livre de la semaine

Les "disciplines de valeur" selon CSC

Bien des lecteurs de L&S se sentiront un peu loin des préoccupations très "stratégiques" d'un ouvrage comme "L'exigence du choix, Trois disciplines de valeur pour dominer ses marchés", qui exprime la position actuelle d'un grand cabinet américain de conseil et de services comme CSC. Pour réussir, une entreprise doit choisir son orientation : excellence technique, supériorité opérationnelle, intimité client. L'informatique est essentielle dans toutes les disciplines, mais ne vient qu'après les décisions stratégiques. Elle va de soi, en quelque sorte. C'est le genre de livre qu'un DSI (ou un commercial) a tout intérêt à lire avant d'aller discuter avec son président ou l'un de ses maître d'ouvrage. Auteurs : Michael Treacy et Fred Wieserma : Editeur : Village mondial/CSC .

Détente

La requête à un coup

La semaine dernière, nous signalions qu'un jeu à la mode sur Internet est de trouver des requêtes qui, sur tel ou tel moteur de recherche, donnent en réponse un document et un seul.

Bertrand Braunschweig gagne le prix de la meillere réponse avec, sur Google, toutes options activées: "asti hebdo braunschweig AFIA ECAI"

A plus ?

Vingt réponses à un utilisateur mécontent

20. "C'est bizarre...."
19. "Ca n'a jamais fait ça avant."
18. "Ca marchait hier."
17. "Comment c'est possible ?"
16. "Ca doit être un problème matériel."
15. "Qu'avez-vous tapé de non prévu pour le faire planter ?"
14. "Il doit y avoir quelque chose d'incohérent dans vos données."
13. "Je n'ai pas touché à ce module depuis des mois !"
12. "Vous devez avoir une mauvaise version."
11. "C'est juste une coïncidence...."
10. "Je peux pas m'occuper de chaque détail !"
09. "Ca ne peux pas être la raison de ce plantage."
08. "Ca marche mais ça n'a pas été complètement testé."
07. "Quelqu'un a du modifier mon code."
06. "Vous devez avoir un virus sur votre machine."
05. "Même si ça marche pas, comment peut-il faire ça ?"
04. "Cette version n'est pas faite pour votre système."
03. "Pourquoi voulez-vous faire cela de cette façon ?
02. "Où étiez-vous quand le programme s'est planté ?"
Et la première :
01. "Ca marche sur ma machine"

NDLR : De source inconnue


L'équipe ASTI-HEBDO : Directeur de la publication : Jean-Paul Haton. Rédacteur en chef : Pierre Berger. Secrétaire général de la rédaction : François Louis Nicolet, Chef de rubrique : Mireille Boris et Claire Rémy. Asti-Hebdo est diffusé par FTPresse.