Sommaire : Pierre Attar, Tirème | Théories et concepts | Enseignement | Dans l'entreprise | La recherche en pratique | Manifestations | Le livre de la semaine |
ABONNEMENT/DESABONNEMENT | PAGE D'ACCUEIL DE L'ASTI | REPERTOIRE | NUMEROS PRECEDENTS
|
Stic. De quoi parlons nous ? Comment en parler ? |
Mardi prochain (30 avril), au déjeuner à l'Asti : Jean-Yves Gresser (Société française de terminologie) et Jean-Paul Haton, président de l'Asti. |
Asti-Hebdo : Vous êtes un des experts français spécialistes d'XML. Pourquoi avoir choisi un domaine apparemment aussi étroit ? :
Pierre Attar : Mon domaine est l'informatique éditoriale, et plus particulièrement l'application de XML au travail documentaire. Mes clients sont les industriels, surtout pour les services après-vente, les éditeurs et les grandes institutions... bref, tous ceux qui ont à gérer de grosses masses de documents rédigés, et pour qui XML est souvent le prolongement des technologies SGML. Je ne travaille pas sur les EDI (Echanges de données informatisé). Je travaille sur HTML uniquement comme un des supports de diffusion d'un fonds documentaire structuré par ailleurs.
Bien sûr, le web est un média important aujourd'hui. Mais demain, y aura-t-il un média dominant ? Le téléphone portable ? Ou quelque chose que nous n'avons pas encore imaginé ? Surtout, n'y aura-t-il pas des médias de diffusion coopérant ? L'essentiel, dans un monde où on ne sait pas ce que sera demain, où les technologies bougent si vite, est de structurer ses fonds de la manière la plus indépendante possible des médias comme des technologies et des systèmes. Et XML est actuellement la solution.
Hebdo : Mais êtes-vous sûr de la pérennité de XML ?
P.A. : A partir du moment où on se rend indépendant des données, des logiciels et des supports de consultation, on saura toujours transcrire dans un autre format. Si XML est demain supplanté par un format YML ou ZML, peu importe. Il n'y aura pas de problème, si ce n'est de porter la sémantique de ses fonds sur le nouveau standard, en fonction de ses possibilités nouvelles.
Cette pérennité est en train de se prouver par l'expérience, avec les transitions actuelles des fonds structurés en SGML qui passent sans souci à XML. De même, a partir des définitions de modèles de données (DTD de SGML), nous passons aux schémas de XML. Cela se fait "en deux minutes". Et le pouvoir d'expression des schémas est supérieur d'au moins 300% à celui des DTD classiques.
A l'avenir, comment imaginer que l'on irait vers des modèles offrant un pouvoir d'expression plus faible ! Il paraît évident que non. Du coup, il ne devrait pas y avoir de problème, puisque l'on ira vers des solutions plus puissantes. En outre, il y a tout lieu d'espérer que le créateurs des formats futurs tiendront compte de ce qui existe et des investissements énormes qui ont été consentis.
Ce n'est donc pas XML en soi qui m'intéresse, qui est important. C'est l'indépendance, garantie de la pérennité.
Hebdo : Qu'attendez-vous du monde de la recherche ?
P.A. : En tant que créateurs de documents, notamment des thèses, je pense que les chercheurs devraient aller beaucoup plus loin dans l'utilisation de XML. Les universitaires doivent être des têtes de pont, faire évoluer les pensées et les méthodes. Pour montrer et démontrer, ils ont la possibilité, comme cela a toujours été fait, de contraindre les doctorants. Il existe des projets allant dans ce sens.
Je trouve que cela pourrait être moins frileux, et aller vers des modèles plus sémantiques, qui ne soient pas seulement la somme de métadonnées et de structures de présentation à l'intérieur des documents. Il est vrai qu'un des freins est le manque d'outils dignes de ce nom pour éditer les documents en XML. Cependant, je suis bien persuadé que cela va changer. Pour les avoir utilisés dans des projets, je suis convaincu aussi que les outils existants sont d'excellente facture.
Sur le fond, XML n'a plus directement besoin des chercheurs. Il s'agit d'une technologie éprouvée, élaborée par l'édition puis reprise par les industriels pour des besoins pratiques, notamment sous la poussée de l'initiative américaine Cals et des normes éditées par l'ATA (Air transport association).
Comme résultats de la recherche, ce que j'attends, dans mon domaine, l'informatique documentaire, c'est d'abord un travail fondamental sur les outils de création de documents. Quand je pense qu'il a fallu dix années-homme de réflexion au PARC (Palo Alto research center) de Xerox pour jeter les bases de l'ergonomie des logiciels bureautiques, je crois qu'il y a aujourd'hui un réel investissement de ce type nécessaire pour les documents XML. C'est ce qu'a fait, à l'époque, l'Imag de Grenoble, avec le développement de Grif. Je crois qu'il est temps de continuer ces travaux, à l'époque où le documentaire se pose les questions de structuration logique du texte, mais aussi des graphiques et autres objets animés... comment va-t-on saisir tous ces objets complexes si l'on n'a pas d'outils de "rédaction" adaptés ? Nous manquons de recherche en ergonomie du logiciel sur le sujet.
Par ailleurs, et toujours en ergonomie, j'attends beaucoup de nouveaux concepts relatifs à la façon de lire les documents électroniques, au niveau de l'interface homme-machine. Comment fait on pour "feuilleter" un fonds documentaire ? Comment fait-on pour transmettre des requêtes ou des résultats à un moteur de recherche ? Pour le papier, nous disposons de nombreux concepts adaptés : marge, ligne orpheline, pagination, imposition... Nous n'avons pas d'équivalents appropriés pour Internet. J'attends des laboratoires qu'ils nous fassent progresser en ce sens. Il y a encore quelques équipes actives, comme celles du Parc (Xerox) ou celle de Vincent Quint (à Grenoble). On attend beaucoup de leurs travaux.
Autre axe de recherche, difficile d'ailleurs : comment transposer les technologies de marquage et d'identification de type XML, conçues pour le texte, aux autres supports : graphique, image, vidéo, etc. ?
Enfin, et je l'ai exprimé dans un article sur le site mutualisé dont j'ai pris l'initiative au sein de la Fing. Il faudrait mettre de l'ordre dans le foisonnement des normes élaborées par le W3C. Il manque une réelle architecture normative à tout cela. Le glossaire publié sur notre site est un début de proposition. Mais je crois vraiment que cela pourrait être un travail fortement productif de la communauté scientifique internationale que d'oeuvrer avec le W3C, afin de mettre de l'ordre dans tout cela pour faire une architecture cohérente. Cela simplifierait le travail des développeurs et des créateurs de logiciels.
Pour conclure, et dans un autre ordre d'idées, notre site mutualisé a été créé pour offrir de l'information à forte valeur ajoutée de façon gratuite et publique. Les statistiques d'accès montrent que la partie glossaire fait référence pour beaucoup. Du coup, je me permets de lancer à vos lecteurs un appel à contribution. Que les chercheurs concernés et compétents sur un domaine (exploré ou pas) du glossaire n'hésitent pas à contribuer au développement de site en proposant des contributions. Nous avons récemment, avec des étudiants qui m'ont appelé après leur mémoire de 3eme cycle, mis au point ensemble un article bref (4 pages) mais dense sur MathML (Mathematical markup language). J'attends une contribution sur UIML (User interface markup language)... Tout cela ne pourra que contribuer à une large connaissance de XML et de ses utilisations;
Hélène Truffaut, dans Le Monde Informatique du 26 avril, commente "C'est dit, l'IAAI (Institut des applications avancées de l'Internet) formera bien des ingénieurs. L'institut marseillais a finalement convaincu la commission des titres d'ingénieurs. Non sans avoir remanié son dossier".
Simplifier les démarches administratives en matière d'état civil, mieux garantir l'identité des personnes physiques, préserver leur vie privée et leurs données personnelles, tels sont les enjeux de ce projet, qui s'inscrit par ailleurs dans un souci de modernisation des préfectures entrepris par le ministère de l'Intérieur.
1. Volet visant à renforcer l'infrastructure permettant la production, la validation et la diffusion de ressources langagières. Ces ressources peuvent être composées de données de texte ou de parole telles que corpus de textes, dictionnaires électroniques ou bases de données terminologiques. Ces données sont essentielles pour développer et tester les systèmes. Les ressources peuvent également comporter des outils de traitement de la langue.
2. Volet visant à créer une infrastructure d'évaluation qui prenne en compte les technologies de traitement automatique du langage parlé (reconnaissance vocale, synthèse de la parole, reconnaissance du locuteur, recherche d'information audio/vidéo) et du langage écrit (recherche d'information, résumé automatique, traduction automatique, compréhension de textes), mais également l'usage de ces technologies dans le cadre d'applications intégrées ou de services, et une réflexion de nature plus théorique sur la détermination de métriques ou de protocoles adaptés à mesurer tel ou tel traitement automatique de la langue.
3. Volet facilitant l'accès à la connaissance des normes et standards développés pour ce domaine, et soutenant une participation française à leur constitution.
4. Volet pour la mise en place d'une veille technologique permettant de connaître l'état de l'art des technologies de la langue et de leurs usages dans différentes applications, dans le contexte international.
Pour tous les dossiers, la date limite d'envoi par messagerie électronique
est fixée au 31 mai 2002 : technolangue@technologie.gouv.fr.
En parallèle, le chef du projet fera parvenir par courrier (sous pli
recommandé avec accusé de réception) une version papier complète du dossier
signée par chacun des partenaires en deux exemplaires au plus tard le 14 juin
(cachet de la poste faisant foi), au ministère de la recherche, Direction de la
technologie (DTA3), orogramme Technolangue, Bureau J 316, 1rue Descartes,
F-75231 PARIS cedex 05.
Pour la troisième année consécutive, les ministères de l’Éducation nationale et de la Recherche lancent cet appel à projets destiné à apporter un soutien à des projets présentés par des établissements regroupés en consortiums et ouverts à des partenaires de l’international et du monde de l’entreprise.
Ergonomie avancée. Du 15 au 17 mai à Valenciennes : Cadui. Computer-aided design of user interfaces. Journées organisées par l' Afihm.
Développement. Du 27 au 30 mai à Nice : JFPLC, journées francophones de programmation logique et par contraintes, Organisées par l'AFPLC.
Avant de vous rendre au séminaire, contactez l'animateur, Pierre Mounier-Kuhn.