Hebdo
No 110. 7 avril2003

Sommaire : Trois questions à Jean-Luc Minel | L'actualité de la semaine | Théories et concepts | Enseignement | Entreprises | La recherche en pratique | Manifestations | Le livre de la semaine | Détente


"Nous travaillons sur la macro-syntaxe de textes entiers et non sur la phrase. Cela permet de reconnaître, dans un texte scientifique en particulier, où l'auteur annonce son plan, propose des définitions, formule ses conclusions. C'est très utile pour la recherche dans les ensembles de texte."

Trois questions à Jean-Luc Minel

Ingénieur de recherche au LaLICC

Asti-Hebdo : Vous venez de publier chez Hermès/Lavoisier "Filtrage sémantique, du résumé automatique à la fouille de textes". Est-ce pour sacrifier à la mode du "web sémantique" ?

Jean-Luc Minel : L'expression "web sémantique" évoque l'intelligence artificielle. Nous en sommes assez loin, même si nous intéressons à l'apport de la linguistique au web sémantique. Nous travaillons aux frontières de la linguistique et de l'informatique, avec la préoccupation de déboucher sur les applications concrètes.

Notre laboratoire (LaLICC) dépend du CNRS et de l'université Paris IV. Il est dirigé par Jean-Pierre Desclés, professeur à Paris IV. Il comprend une vingtaine de permanents et quinze doctorants. Il regroupe
- une composante venant des sciences de l'information et de la communication, dirigé par Yves Jeanneret,
- une composante "linguistique informatique", dirigée plus précisément par Jean-Pierre Desclés, où il s'agit de modéliser la donnée linguistique en vue d'une certaine opérationnalisation ; ce n'est pas de la linguistique descriptive.

Nous travaillons sur le texte dans son ensemble, pas sur la phrase, qui est l'observable classique en informatique linguistique. Par texte, nous entendons un ensemble de phrases dans lesquelles on peut repérer des éléments de macrosyntaxe, des structures textuelles. C'est la raison pour laquelle nous collaborons avec Michel Charolles, professeur à Paris III.

Nous recherchons des marques lexicales (noms, verbes ou propositions), mais nous ne les classons pas par rapport à des catégories syntaxiques prédéfinies, mais plutôt par rapport à leur fonction sémantique ou discursive dans l'ensemble du texte. Par exemple, comment un auteur annonce son plan, propose une définition, formule sa conclusion... Il dit par exemple "Je vais décrire dans cet article...". Nous travaillons donc beaucoup sur les verbes, et plus généralement sur la manière de dire plutôt que sur ce qui est dit.

C'est pourquoi nos travaux sont assez indépendants du domaine visé par les textes. Qu'il s'agisse de physique, de chimie ou même d'un article de presse généraliste, tout auteur fait appel à un ensemble de ressources qu'il faut mobiliser pour dire au lecteur ce qu'on est en train de faire. Il faut bien entendu prendre quelques précautions, car les usages peuvent varier selon les domaines, mais, pour vous donner un exemple, en collaboration avec l'équipe de Jeanneret, nous allons étudier comment travaillent les journalistes de FR3 dans la construction de leurs interventions, quels outils ils utilisent devant leurs écrans.

A.H. : Quelle est l'importance de la communauté ?

J.-L.M. : Nous avons organisé une journée francophone sur le résumé-filtrage, avec l'association Atala, en décembre dernier, et elle a réuni cent personnes. Cette communauté, qui regroupe environ 200 personnes en région parisienne, traite de tout ce qu'on peut englober sous le terme de résumé-filtrage : extraction d'information, mais aussi tout ce qui peut être recherche d'information sur le web... mais sans intégrer le web sémantique, au sens de l'IA.

Ces chercheurs sont des informaticiens (qui cherchent à voir comment l'informatique peut effectuer des traitements sur le texte et plus généralement sur la langue) et des linguistes (intéressés par la modélisation des connaissances linguistiques).

Certains viennent de la veille technologique. Par exemple une doctorante de notre laboratoire travaille actuellement chez un constructeur automobile, et vise à utiliser nos techniques pour repérer des "signaux faibles". D'autres travaillent sur les brevets, les marques. La Défense est venue voir ce que nous faisons, mais n'a pas donné suite. Il n'est pas impossible que les militaires travaillent sur ces questions, mais ne souhaitent pas le montrer. La Défense américaine, en revanche, est très présente sur le domaine. Inderjeet Mani, par exemple, de la Mitre Corp. a publié récemment (avec Marc Mayburi) Advances in automatic summarization (MIT Press, Londres, 1999).

A.H. : A vous lire, on sent une orientation vers le pratique. On serait presque tenté d'évoquer les "systèmes experts"

J.-L.M. : Il ne s'agit pas de systèmes experts. Mais nous utilisons tout de même le terme de règle (d'exploration contextuelle), pour exprimer le fait qu'on recherche des configurations types et que cette recherche s'exprime sous forme d'un langage (qu'on pourra ensuite traduire en automate à états finis, mais cela n'est pas le problème du linguiste). En pratique, l'outil (écrit en Java) se présente sous forme de tableaux, et l'utilisateur doit se tenir à une syntaxe assez rigide. Les linguistes disent (sans déplaisir) "Vous nous obligez à structurer".

L'orientation vers les applications concrètes vient sûrement de mon passé : j'ai travaillé plusieurs années dans l'industrie avant de revenir au CNRS. Une idée que je partage avec Jean-Pierre Desclés, c'est que les modèles linguistiques formels très puissants (comme les modèles de "compréhension") peuvent s'avérer totalement stériles quand aux applications, car ils ne permettent pas de traiter un texte concret. Il se crée donc un fossé entre les chercheurs qui vont dans ce sens et ceux qui s'attaquent vraiment au traitement textuel, et qui sont conduits à résoudre chaque question par un "bricolage" ad hoc. Note idée est de trouver une voie médiane : essayons de dégager une méthodologie générale, mais utilisable. Cette voie est celle des types de marques "de surface" et de leur organisation.

Elle débouche sur la construction de machines informatiques pouvant fonctionner concrètement. Par exemple, si vous cherchez la définition d'un terme, vous pourrez extraire automatiquement les définitions de ce terme contenues dans un certain corpus de textes.

Quant à une industrialisation de nos résultats, j'ai fait quelques tentatives, mais les financiers se sont retirés au moment de l'éclatement de la "bulle". De toutes façons, je connais l'industrie, je sais les contraintes que comporte la commercialisation d'un produit. Il faut être prêt à assumer les retours, les critiques, entrer dans des boucles qui peuvent être très consommatrices de temps. C'est un autre métier. La vraie valeur ajoutée d'un laboratoire comme le nôtre ne se situe pas là.

La valorisation se fait plutôt par l'intermédiaire de bourses Cifre, ou par nos publications elles-mêmes, qui sont à la disposition des utilisateurs ou des industriels intéressés.

Propos recueillis par Pierre Berger


Actualité de la semaine

La convention PCRI signée en grande pompe

Francis Jutand (directeur du département Stic du CNRS), Gabriel de Nomazy (directeur général de l'Ecole polytechnique), Xavier Chapuisat (président de l'université Paris-Sud 11) et Bernard Larrouturou (président directeur général de l'Inria) (de gauche à droite sur notre photographie) ont signé vendredi 4 avril la convention qui fonde le PCRI (Pôle commun de recherche en informatique), dont la première pierre devrait être posée d'ici à l'été 2004.

"Fédérant les forces d'une université et d'une école prestigieuse, et celles des deux organismes nationaux dont l'activité se situe - totalement ou en partie - au coeur de la société de l'information, cette démarche vise à inscrire dès l'origine le PCRI dans une dynamique nouvelle et ambitieuse afin de constituer un pôle de recherche de grande visibilité internationale".

La dotation d'origine est de 9,15 millions d'euros. Le pôle disposera d'une surface de 3700 mètres carrés, qui pourraient par la suite être portés à 6000, sans compter d'autres installations sur d'autres sites. Il accueillera 140 chercheurs et 100 doctorants et post-doctorants. Il est d'ores et déjà dirigé par Marie-Claude Gaudel, membre du conseil d'administration de l'Asti.

Dès à présent, il regroupe quatre projets :
- Gemo, Intégration de données et de connaissances distribuées sur le web,
- In-Situ, interaction située (paradigmes et modalités d'interaction, conception participative, ingénierie des systèmes interactifs),
- Logical : logique et calcul (preuve et certification de programmes),
- Tanc : théorie algorithmique des nombres pour la cryptologie (théorie algorithmique arithmétique, multiplication complexe, courbes algébriques sur les corps finis, construction de cryptosystèmes robustes).

Pierre Berger

Nous avons montré des facettes du PCRI dans les interviews de Michel Beaudoin-Lafon (LRI) et de Claude Puech (Inria Futurs).

Le front de la recherche au Micad

Placée sous le signe de l'innovation et de la recherche, la 22ème édition du Micad a été inaugurée par Philippe Jurgensen, PDG de l' Anvar.

Dassault Systèmes, le plus grand laboratoire de développement logiciel en Europe avec 3848 salariés y a le plus grand stand avec son complice IBM. Il revendique 1500 clients en France dont 80% sont des PME. Comme illustration, une application très fine, Catia V5 chez LNM (Les nouveaux matériaux), entreprise de Marseille de cinq personnes. Le progiciel de DS y sert à concevoir des archets et des voiliers en composites. La firme a acheté ce logiciel en 2000 : "Elle sert là d'interface à des gens qui ont une sensibilité particulière en musique et arts nautiques. Pour les bateaux, un tel produit permet de faire des modèles virtuels avant que le produit n'existe," explique Olivier Philippot, fondateur de l'entreprise de construction. Il l'a connu au cours de ses études à SupAéro à Toulouse. "Nous étions très intéressés par le logiciel auquel nous avons consacré plus de 2000 heures."

La facture instrumentale constitue une des premières activités du BE, des contrebasses en matériaux composites aux archets même. LNM a produit 3000 archets commercialisés sous la marque Carbow. Ron Carter, Didier Lockwood, Regina Carter font partie des musiciens qui les utilisent et les recommandent. Suite à une demande de substitution de matériaux, l'archet dont la cambrure se déforme avec la tension de la pièce principale est de moins en moins souvent fabriqué en bois précieux et de plus en plus en composites.


Parallèlement, PTC, l'éternel concurrent de Dassault Systèmes sacrifie lui aussi aux arts navals et recevait Vincent Page, ingénieur en chef de l'armement de la DCN, pour présenter la frégate "Al-Riyad" réalisée avec 3D Cadds et Optegra, (pas encore avec Wildfire, la dernière version de Pro/Engineer), la conception ayant été répartie sur 11 sites géographiques différents.

Renault montre les possibilités des outils de réalité virtuelle avec vision 3D et retour haptique. avec l'aide du CEA et de la société Haption, essaimage du CEA. On y démontre le montage et démontage virtuel d'une vitre. L'opérateur qui a une mini-vitre dans les mains, vérifie que cette pièce est montable. Le système haptique lui permet de sentir s'il y a des collisions, et si en glissant, cela va passer quand même – ce que lui montre la scène 3D devant ses yeux. Ce projet qui fonctionne "à l'intuition" est baptisé PERFRV.(En écho, sur le stand Immersion, en avant première européenne, le poste de travail Haptic avec retour d'efforts sur les mains (gants cyberglove et exosquelette Cybergrasp) et sur le bras (système Cyberforce)).

Le Centre de Calcul EADS présente Salomé, sa plate-forme applicative d'intégration CAO-Calcul en Open Source faite avec Open Cascade (Voir l'interview de son fondateur, Pierre Bruno) qui vient d'être reprise par Principia Recherche et Développement . Pour devenir un leader européen de la simulation numérique, les deux sociétés ont réuni leurs complémentarités naturelles, l'ingénierie logicielle pour la première et l'ingénierie scientifique pour la seconde.

Design Processing Technologies annonce en première mondiale la sortie de Pro@design-expert v1.2. Cette suite logicielle orientée métiers réalise le dimensionnement et l'optimisation de produits industriels par traitement automatique et symbolique des modèles mathématiques analytiques dans l'ingénierie automobile, l'aéronautique, le génie électrique, le génie industriel. La technologie logicielle Pro@design est le fruit de dix années de recherche d'un équipe LEG-CNRS de l'Institut National Polytechnique de Grenoble, explique Bruno Hareng, responsable marketing.

Le Micad comporte un espace qui facilite les relations entre les industriels et les laboratoires et écoles d'ingénieurs, ainsi qu'à leurs élèves. Parmi les écoles présentes, l'Ensiame (Ecole nationale supérieure d'ingénieurs en informatique, automatique, mécanique, énergétique, électronique) de Valenciennes, l'IFTS (Institut de formation technique supérieure) de Charleville-Mézières, l'ISTM (Institut supérieur de technologie et de management) de Noisy-Le-Grand.

L'IFTS, qui compte 300 étudiants, du Deug au DESS sciences de l'ingénieur, dispose de différents laboratoires de recherche, plasturgie, analyse de polymères, métallurgie, simulations, forge et fonderie, prototypage rapide. Il est l'auteur d'un nouveau logiciel Dija utilisé à la fois en design art ménager et en fonderie. Espoir 2, nouveau programme transfrontalier qui associe le département des Ardennes et la région wallonne, intègre les entreprises dans le développement des projets.

Le Micad est le plus grand salon de CAO du monde : aucun acteur n'est absent. Il constitue en même temps un festival pour les logiciels de calcul. Au "florilège", Abaqus dont la version 6.3 voit l'achèvement d'importants développements dans les domaines de l'acoustique et du choc acoustique, Hyperworks 6.0 d'Altaïr, et l'introduction de FEMXplorer d'Ansys, outil d'investigation pour le calcul des éléments finis. CADLM, spécialisée dans les maillages automatiques, les simulations numériques par éléments finis ainsi que l'optimisation des structures propose de nouveaux outils complémentaires aux logiciels éléments finis.

ESI Group dévoile sa gamme de logiciels de simulation de fonderie et sa solution de simulation acoustique dont Rayon pour les basses fréquences et AutoSEA pour les hautes fréquences. ESI a fait lui aussi le choix de la plate-forme Catia V5 et développe pour Renault une couche qui permettra d'intégrer les données de calcul. Flowmaster lance une nouvelle version intégrée de simulation thermique de véhicule et Fluent l'ensemble de ses marques en mécanique des fluides, Fluent, Icepak, Polyflow, Fidap, Fdi. Imagine présente en avant première mondiale la version 4.1 de son logiciel AMESim, plate-forme de modélisation et de simulation pour experts en simulation, développeurs de nouveaux modèles et utilisateurs finaux. MSC.Software, en raison d'accords avec Dassault Systèmes insère son offre logicielle de base dans une approche globale de prototypage virtuel(VPD). The Mathworks, développeur de l'environnement Matlab est à juste titre sélectionné comme conférencier dans le cadre de la session, "Simulation Numérique et Calcul : quelle place dans l'entreprise".

Au Micad, la discipline reine reste la mécanique, mais d'année en année, la part de l'architecture et de la construction grandit. Les abords d'Autodesk (Autocad 2004 et Architectural Studio 3) ressemblent à un petit Batimat, - systèmes d'information géographiques compris.

Parmi les curiosités, Bionatics présente Easynat, modeleur de plantes 3D, dérivé de la technologie Amap conçue par les chercheurs du Cirad. S'intégrant aux produits Autodesk, il permet de modéliser une plante réaliste en quelques clics et de simuler sa croissance et ses changements avec les saisons et les années. Son grand frère, natFX est utilisé par les plus grandes références des studios d'animation 3D.

Côté constructeurs informatiques, Sun présente ses réalisations de Grid Computing avec sa plate-forme Sun Fire B1600, HP ses stations de travail Itanium et IA32. Le plus spectaculaire de l'offre SGI est OpenGL Vizserver 3.0 – les performances de visualisation, de calcul et de stockage des supercalculateurs graphiques SGI devenant accessibles pour tous les membres de l'entreprise équipés de PC, avec ou sans fil. Spectacle inédit sur le stand, le mariage d’une station de travail Silicon Graphics Fuel™ et du plus performant des écrans haute résolution, l’IBM T221 qui offre 9,2 millions de pixels, pour design, visualisation, rendus réalistes (applications DS, Alias-Wavefront, Simulog, VR Context, etc..).

Ailleurs, IBM, polarisé par la présentation de sa création commune avec Dassault Systèmes, le PLM (Product LifeCycle Management) auquel le Micado consacrait la plus grande partie de ses conférences, - en aurait presque fait oublier qu'il faisait aussi du "hard".

En début ou fin de visite, il était tout à fait recommandé de faire une halte sur le stand Paris Siggraph, site ASTI, pour y voir de près les œuvres de l'Art Gallery du Siggraph 2002.

Mireille Boris

Internet va être doté de sa propre autorité

Selon 01 Net La création d'un Conseil consultatif de l'Internet est actuellement étudiée par le gouvernement. Conséquence : la tutelle du CSA sur la Toile, comme l'implique le texte actuel de la loi Fontaine, ne serait plus au goût du jour.


Théories et concepts

Darc : la bande FM sur PC

Le standard Darc (Data radio channel) est destiné à la diffusion d'informations sur la bande FM à destination des PC. Article de Gilles Rocard dans Progiciel expert d'avril 2003. Un tel système est déjà utilisé à Paris par la RATP pour l'information des voyageurs du réseau d'autobus, et par Taxi G7.

Parutions chez Hermès

Le travail coopératif et ses technologies, par Jacques Lonchamp.

Réseaux locaux et Internet, des protocoles à l'interconnexion. 3eme édition revue et augmentée, par Laurent Toutain

Architecture fonctionnelle des logiciels, par Guy Lapassat

Urbanisme informatique et architectures applicatives, par Guy Lapassat

La gestion des risques, principes et pratiques, par Alain Desroches, Alain Leroy et Frédérique Vallée

 

Cybercontrôle

Un dossier "Fichiers et liberté : le cybercontrôle 25 ans après" est publié par la revue Terminal dans un numéro spécial. Depuis 1978 et la loi informatique et libertés, note notre confrère, les moyens de contrôle et de fichage se sont considérablement accrus, alors que la vigilance citoyenne a bien du mal à réveiller la conscience du public. La revue a demandé à des spécialistes du monde associatif, institutionnel et de la recherche de faire le point sur l'état des libertés informatiques, des législations, des outils de surveillance et des moyens de résistance.

Premier thème : la généralisation du contrôle. Dans le travail comme dans la vie privée le fichage progresse, mais la volonté de fichage n'est pas seule en cause, nombre de traces informatiques nous piègent. Il est indispensable de faire le point sur la progression du phénomène en 25 ans.

Deuxième thème : la réglementation. Il s'agit de mieux comprendre les très nombreux textes et lois qui régissent vie privée et informatique, fichiers, Internet, télécoms… Les grands principes de liberté individuelle tiennent difficilement face à une radicalisation du contrôle administratif et policier (analyse complète des dispositifs actuels, de la loi sur la sécurité quotidienne…).

Troisième thème : une tendance internationale. Les libertés publiques connaissent une menace commune, mais selon des histoire et des procédures variées. Un regard sur d'autres situations est éloquent.

Editée par l'Harmattan, la revue Terminal a son site web : http://www.terminal.sgdg.org


Enseignement

Audiovisuel en classe de gym !

Les Tice ne sont pas réservées aux maths et à l'informatique, note Landes Interactives, qui consacre un dossier aux utilisations de l'audiovisuel en classe de gymnastique

Cour des Comptes

La Cour des comptes vientde publier sur la gestion du système éducatif et en particulier sur l'enseignement supérieur. Elle propose que l'État assume plus efficacement son rôle de pilote et que les universités soient plus attentives aux coûts de leur gestion, qu'elles prennent en compte l'espace européen et développent l'évaluation de leur efficacité". A télécharger ( 410 pages, 2.6 Mo au format PDF).


Dans les entreprises

Le grid s'adapte à l'entreprise

Selon Le monde informatique du 4 avril, le grid s'adapte à l'entreprise. Les grilles de calcul débordent du domaine scientifique et le éditeurs multiplient les produits. L'article développe principalemnet l'offre des fournisseurs, en premier lieu IBM et Sun. Le principal problème ne sera pas de trouver des applications, mais de faire coopérer les services.


La recherche en pratique

Mettes vos comptes en ordre

Du CNRS (voir notre dernier numéro) à la Cour des Comptes (ci-dessus, rubrique enseignement), les politiques mettent la pression sur l'enseignement supérieur pour qu'il fasse un effort de gestion. C'est une façon comme une autre de répondre à la grogne des Universités et en particulier à la fermeture pendant 15 jours de Paris-Sud à Orsay.

Dans la même ligne, tout en affirmant avec force son soutien aux chercheurs, la ministre Claudie Haigneré mandate les inspections de la recherche et des finances pour mener une brève mission d'enquête au sein des organismes de recherche
http://www.recherche.gouv.fr/discours/2003/orgrecherche.htm.

Francophonie

Informations de l'Amue :

Le français à l'université" est un bulletin trimestriel d'information et de liaison qui s'adresse aux enseignants et chercheurs des départements d'études françaises, filières francophones, centres de langue et centres d'études ou de recherche sur la francophonie. http://www.auf.org/programmes/programme1/bulletin/

Programme d'aide à l'interprétation simultanée - 2003 http://www.culture.gouv.fr/culture/dglf/aide-traduct.htm

Problèmes d'orthographe : Orthonet (http://www.sdv.fr/orthonet/ ) vous dépanne, vous informe, vous explique... C'est un site du Conseil international de la langue française


Manifestations

Sommet mondial sur la société de l'information

La consultation en ligne du document préparatoire au SMSI et un forum sont désormais accessibles
http://www.recherche.gouv.fr/discours/2003/smsi.htm

Rencontres de l'Inria

La liste complète.

Avril

Iera'2003. Intelligence économique : recherches et applications (14-15 avril 2003, INIST-CNRS Nancy, France)

IPDPS'03. International Parallel & distributed processing symposium. (22-26 avril 2003, Nice Acropolis convention center, France)

PCS' 2003. - 23 rd Picture coding symposium. (23-25 avril 2003 , Saint Malo, France)

IWPT'2003. - 8ème colloque international sur les techniques d'analyse syntaxique. (23-25 avril 2003 Nancy, France)

Mai

Colloque international Mesures de l'internet (12, 13 et 14 mai 2003 Sophia Antipolis (France)

Orasis 2003 - Congrès francophone de Vision par ordinateur (19-23 mai 2003, Palais des congrès, Gérardmer, France)

Juin.

Colloque International - Mesures sur l'Internet (12 juin -13 juin 2003, Nice, France)

IS4TM. - International symposium on Surgery simulation and soft tissue modeling (12-13 juin 2003 Juan-les-pins, France)

JFPLC'2003 - Journées francophones de Programmation logique et programmation par contraintes (17- 19 Juin 2003 Amiens, France)

Memocode'2003 - First ACM & IEEE international conference on Formal methods and models for codesign (24-26 Juin, 2003, Mont Saint-Michel, France)

Waves 2003 - The Sixth international conference on mathematical and numerical aspects of Wave Propagation
(30 Juin - 4 juillet 2003, Jyväskylä, Finland)

Manifestations des associations fondatrices de l'Asti

- Afia
- Afig
- Afihm
- ASF - ACM Sigops
- Atala
- Atief
- Cigref
- Creis
- GRCE
- Gutenberg
- Inforsid
- Specif

 


Le livre de la semaine

Autoformation et enseignement supérieur

Sous la direction de Brigitte Albero, un grand travail conceptuel et bibliographique, montrant les multiples facettes de l'autoformation comme pratique, dans ses contextes. Un tiers de l'ouvrage est consacré aux technologies, mais d'une manière très spéculative où les professionnels des Stic ne trouveront que matière à réflexion... On aurait aimé un minimum de statistiques et de présentation concrètes des résultats sur le terrain. Il est clair qu'il n'y a pas, aujourd'hui, de communication entre les communautés "SHS" d'établissements comme l'INRP et les communautés "STIC" qui se regroupent par exemple à l'Atief (Voir l'interview de Monique Grandbastien dans notre numéro 79).


Détente

Vous avez dit ASP ?

Contrairement à ce que vous imaginez (Application service provider), ASP veut dire Applications susceptible de percer. Pour vous en convaincre, lisez le numéro d'avril de Progiciel expert .


L'équipe ASTI-HEBDO : Directeur de la publication : Jean-Paul Haton. Rédacteur en chef : Pierre Berger. Secrétaire général de la rédaction : François Louis Nicolet, Chefs de rubrique : Mireille Boris, Claire Rémy et Armand Berger. Asti-Hebdo est diffusé par FTPresse.