Hebdo No 131. 3 novembre 2003

Sommaire : Trois questions à Stéphane Bres (Liris)| Théories et concepts | Enseignement | Entreprises | Manifestations | Bibliographie | Détente


"Comment chercher des séquences vidéo répondant à une requête ? En mettant la question sous forme d'une séquence et en calculant pour toutes une "signature" permettant une estimation des distances sémantiques."

Trois questions à Stéphane Bres

Laboratoire Liris

Asti-hebdo : Vous venez de publier un livre sur le traitement d'images chez Hermès-Lavoisier (voir rubrique Livres). Mais vos centres d'intérêt ont maintenant évolué. Quel est actuellement le thème de vos travaux?

Stéphane Brest : Il y a quelques années, nous appliquions le traitement d'images au contrôle de matériaux composites ou de cathodes de téléviseurs, par exemple, et plus généralement au contrôle de qualité. Mon équipe avait aussi une activité importante dans le domaine du document papier, avec les problèmes de reconnaissance de l'écriture (imprimée, principalement) et plus généralement de la numérisation.

Les travaux concernant le document constituent encore une grande part de l'activité de l'équipe, mais nous avons abandonné petit à petit le contrôle de qualité pour nous recentrer sur l'indexation d'images (ce thème est très présent dans notre ouvrage). Notre équipe se tourne également vers le traitement des séquences vidéo, un domaine d'actualité depuis quelques années, avec toujours ce même objectif d'indexation.

C'est l'évolution des technologies qui nous a permis de faire le saut des images fixes aux vidéos. Il y a quelques années, la vidéo était difficile à manipuler, exigeait de longs traitements difficiles à piloter. Son stockage consommait des volumes trop considérables pour une équipe universitaire . Aujourd'hui, les PC suffisent. Ils disposent de dizaines de giga-octets sur disque et conviennent tout à fait au traitement de la vidéo (Nous avons encore quelques stations de travail mais, comme nous ne les avons pas renouvelées depuis un certain temps, les PC leur sont aujourd'hui largement équivalents). Nous bénéficions en outre de nouveaux algorithmes de compression, notamment le DivX, basé sur le MPeg4, qui permettent de stocker de nombreuses heures de vidéo sous un volume raisonnable et de constituer ainsi des banques de test importantes.

A.H. : Concrètement, sur quelle application du traitement d'images travaillez-vous ?

S.B. : Un de nos grands axes de travail actuel est le développement pour les vidéothèques et les archives des producteurs de vidéo d'outils de recherche comparables à ce que l'on a mis en place pour la documentation traditionnelle et que l'on perfectionne pour les banques d'images.

Les requêtes qui viennent naturellement à l'esprit sont du type "trouver les images ou les séquences où le président Chirac est en visite au Mali". Malheureusement, ce type de question n'a pas de solution automatisée aujourd'hui. Il faut toujours recourir, dans ce cas, aux techniques traditionnelles d'indexation manuelle, de forme textuelle, avec mots-clés, etc. Mais l'énormité de la production d'images et de vidéo dépasse la disponibilité des archiveurs de ces séquences. Nous cherchons donc une autre manière de présenter les requêtes et de trouver les réponses.

Ce problème, comment poser les questions, se pose pour les recherches de vidéos comme d'images. Si l'on veut s'affranchir des mots-clés et éviter un langage de description peu évident à manipuler, la solution la plus simple semble être d'exprimer la requête sous forme d'une image ou d'une séquence. La question prend donc la forme de ce qu'on cherche : une image pour trouver des images, une vidéo pour trouver des vidéos. Nous travaillons aujourd'hui sur les vidéos comme nous avions choisi de le faire pour les images fixes : par analogie.

On nous demande par exemple de chercher des images de mer ou de montagne, avec telle couleur dominante, et la présence d'une texture définie. L'analyse de ces différentes caractéristiques sur l'image de requête nous permet ensuite de trouver dans la base les images qui présentent des caractéristiques similaires. On fait l'hypothèse forte que des images aux caractéristiques visuellement similaires (texture, couleurs, formes...) traitent du même sujet. Ce n'est pas toujours le cas, hélas. Nous avons réalisé un moteur de recherche d'images sur ces principes. Vous pouvez l'essayer sur le site telesun.insa-lyon.fr/kiwi. Le site de l' Insa de Lyon contient d'ailleurs un cours de traitement d'images où l'on retrouve quelques un des thèmes que nous avons développé plus largement dans notre livre.

Après les images, nous sommes passés aux vidéos. Les choses se compliquent parce qu'une vidéo "c'est plein de choses différentes" qui suivent au point de vue "sens". Une des premières choses à faire est donc de réaliser automatiquement le découpage en séquences sémantiquement cohérentes. Nous savons assez bien le faire, en repérant les changements de plan (cuts) : quand la caméra s'arrête, change d'angle, repart sur une autre prise de vues. On dispose ensuite d'ensembles qui ont de bonnes chances de ne traiter qu'un seul thème, de présenter pour l'essentiel les même objets, les mêmes personnes. Il y a bien sûr des exceptions. On nous cite des exemples de films où un traveling dure dix minutes et fait défiler des milliers de personnages dans de multiples thèmes. Mais le cas est rare. Nous aboutissons, en général, à des paquets de 200 ou 300 images, soit une dizaine de secondes.

Nous en sommes à des applications partielles. Celle que nous traitons actuellement, c'est la recherche dans la base de séquences identiques à la séquence requête. Les utilisations pratiques sont nombreuses. On s'aperçoit à l'usage que les chaînes de télévision diffusent un grand nombre de fois, voire massivement, les mêmes séquences, en particulier les clips de publicité et les génériques. On peut utiliser ce fait pour réduire sensiblement les volumes d'archives, en ne stockant qu'une fois ces séquences fréquemment répétées.

En outre, une fois qu'on a identifié un générique, ou un jingle d'entrée, cela renseigne sur la série d'images qui vont suivre, jusqu'au générique de fin ou au passage à une autre émission. Dans une émission d'une après-midi sur un rencontre d'athlétisme, par exemple, nous pourrions chercher toutes les séquences qui correspondent au saut en hauteur.

Le coeur de la solution est dans un calcul de signature pour chaque séquence. Il ne s'agit pas ici de signature au sens du filigrane (watermarking) qui intéresse les spécialistes de la sécurité et de la propriété industrielle (voir interview d'Henri Maitre, Asti Hebdo numéro 92), ni de fichiers compressés qui permettraient de reconstruire la séquence avec une fidélité plus ou moins grande. Nous ne cherchons pas non plus à élaborer un langage de description. Parce que c'est toujours subjectif, pour la vidéo encore plus que pour les images fixes. Ce qui compte, pour nous, c'est de conserver l'essentiel de la requête sous une forme suffisamment condensée pour permettre un traitement rapide. Ce que nous avons élaboré (et continuons de perfectionner, c'est un des thèmes de nos recherche) c'est un programme qui extrait de la séquence un ensemble de caractéristiques et en déduit la signature. Typiquement, actuellement, 8 octets par image. Cela nous conduit à un fichier de 5 à 10 kilo-octets.

Finalement, le processus consiste globalement à organiser la base vidéo en séquences, à appliquer notre "moulinette" à toutes séquences ainsi qu'à la séquence de requête, et à sélectionner les réponses par des calculs de distances (point que nous avons particulièrement travaillé, comme on le voit dans notre ouvrage).

Malgré la réalité des besoins, il n'est pas pour autant facile de trouver des industriels prêts à investir dans nos recherches. Nous avons d'intéressants contacts avec France 3.

A.H. : Quel genre de techniques utilisez vous pour élaborer ce processus ?

S.B. : Nos travaux sont largement basés sur des techniques mathématiques, en particulier les analyses fréquentielles par la transformation de Fourier et les ondelettes. L'analyse par FFT (Fast Fourier Transform) donne une représentation globale de l'image. Les ondelettes sont capables en outre de remonter jusqu'à une localisation dans l'image : telle fréquence apparaît, dans telle image, à tel endroit.

Les techniques de reconnaissance en vidéo prolongent celle de l'image, en y ajoutant des paramètres propres au mouvement représenté par un grand nombre d'images successives. On peut, dans une certaine mesure, traiter la vidéo comme une succession d'images fixes, chaque image venant rajouter un peu d'information à l'image qui la précède. On segmente image par image, on identifie des objets, et ensuite on étudie les déplacements et les modifications de ces objets.

On peut détecter du mouvement. Par exemple une personne qui travers l'écran, ou caractériser un mouvement de caméra comme un traveling de gauche à droite, par exemple. Ici aussi, certaines scènes font difficulté : on risque toujours de confondre un traveling avec le passage d'un train devant la caméra.. Le zoom, aussi, est assez facile à caractériser. Ou un ensemble de mouvements désordonnés, par exemple ceux d'une foule. Nous travaillons aussi à des moyens d'analyser la dimension temporelle de la vidéo et donc le mouvement en particulier. Certains laboratoires se consacrent particulièrement à ces analyses temporelles.

De façon générale, nous essayons de sortir de l'information des séquences vidéo par tous les moyens. Nous nous sommes donc beaucoup intéressés aux textes que l'on y trouve, qu'il s'agisse de textes fixes ou en mouvement (génériques de fin, par exemple). Ces textes contiennent souvent des informations difficiles à extraire par d'autres moyens. Je pense par exemple aux noms de personnes. Mais là, les travaux passés de notre équipe (sur le document) nous donnent de bonnes capacités pour exploiter ces informations textuelles affichées à l'écran. Dans les interviews, par exemple, le nom est presque toujours indiqué en bas d'image, à un moment ou à un autre. Nous nous intéressons aussi un peu aux aspects sonores : la bande son associée à une séquence vidéo contient elle aussi beaucoup d'informations utiles.

Ces travaux s'inscrivent dans la ligne de mes goûts personnels. J'aime les images, la vidéo, j'aime manipuler tout cela, essayer d'en extraire de l'information, tenter de reproduire un peu l'analyse de nos yeux et de notre cerveau... Nous en sommes encore loin ! J'ai un caméscope, un appareil photo numérique. A mes heures perdues, j'essaie de dessiner un peu. Le son m'intéresse aussi. Mais il faut bien se spécialiser;

Notre équipe est intégrée au Liris. Ce laboratoire a vu le jour au début de cette année 2003, à l'issue d'un regroupement de plusieurs équipes ou laboratoires lyonnais. Il comprend 150 permanents, dont une vingtaine se consacrent au traitement des images. A ces permanents s'ajoutent des doctorants et d'autres chercheurs non permanents. Nous coopérons surtout avec les laboratoires de la région Rhône-Alpes, en particulier Grenoble, Annecy et Saint-Etienne. Nos recherches ont donc les meilleurs chances de déboucher sur des techniques nouvelles répondant aux besoins croissants des industries de la vidéo.

Propos recueillis par Pierre Berger


Théories et concepts

Logiciel libre

Richard Stallman fait une conférence à Bruxelles, le 28 novembre à 19 heures, sur le thème The danger of software patents. Il lui sera remis les insignes de docteur honoris causa.
Entrée libre mais inscription demandée . Lieu: auditoire Aula Q sur la campus de la plaine de l'Université libre de Bruxelles ( pour y aller )
Information complémentaire: http://crosstalks.vub.ac.be/theme_events/event1.html

On trouve un calendrier des manifestations consacrées au logiciel libre sur le site de l'association belge AEL (Association électronique libre)

Cycle des données

Patrick Martin (CEO de Storagetek) déclare à 01 Net : « En gérant le cycle de vie des données nous réduirons le coût du stockage ». Pour se diversifier, Storagetek s'attaque au stockage des données dites secondaires, pour les associer à des supports adaptés à leur criticité.

Rétrospective sur mille numéros !

Le Monde Informatique consacre son numéro 1000 à une vaste rétrospective de ses parutions depuis son lancement au début de 1981. Principaux thèmes : grands témoins, les chefs de projet, les entreprises, la technologie, rétrospective, humour.

Immatériel

On dit que l'économie est devenue "immatérielle", mais ce terme fait obstacle au raisonnement. Comment éclairer celui-ci ? Michel Volle propose son analyse.

Vie artificielle

Sous la direction de A. Guillot et J.A. Meyer, un numéro spécial de la revue RSTI-Technique et science informatique (Hermès/Lavoisier) traite de La vie artificielle. Les recherches sur la VA visent à la synthèse de comportements ressemblant à ceux des êtres vivants au moyen d'ordinateurs ou d'autres artefacts. De nos jours, les artefacts ainsi synthétisés peuvent être aussi bien des agents explorant la Toile, des personnages non joueurs dans un jeu vidéo, des entités autonomes évoluant dans un monde virtuel, ou des "animats", animaux simulés sur ordinateur ou robots matériels. Les caractéristiques recherchées peuvent être très générales, comme lorsqu'il s'agit de donner l'illusion du vivant en attribuant à un agent certaines capacités d'autonomie et d'adaptation. Elles peuvent aussi être très spécifiques, comme lorsqu'il s'agit de s'inspirer de l'organisation et de la physiologie du cerveau d'un rat pour mettre au point un système de navigation et de vision active pour robot autonome. Ce numéro spécial illustre certains des thèmes abordés par des laboratoires français se recommandant expressément de la vie artificielle.

Ordonnancement pour l'informatique parallèle

Sous la direction de A. Moukrim et C. Picouleau, cet ouvrage (publié chez Hermès/Lavoisier) tente de présenter un échantillon des problèmes liés aux ordonnancements parallèles et des méthodes de résolution. Il expose des résultats de nature théorique généraux sur l'ordonnancement, mais aussi sur les difficultés concernant le réseau physique internet et plus généralement les délais et contraintes de communication, sur l'équilibrage de charge de calcul et les contraintes de temps réel.


Enseignement

Comment les jeunes utilisent les Stic

La Diffusion Paris 7 signale l'étude Computer and Internet Use by Children and Adolescents in 2001. Accès.

Un numéro d'Upgrade sur l'enseignement électronique

La revue numérique Upgrade consacre au thème E-learning, borderless education, accessible son numéro d'octobre.

Ce numéro, d'orientation pratique, vise à dresser un panorama des systèmes d'enseignement électronique.


La recherche en pratique

Chaires "Blaise Pascal"

Les chaires internationales de recherche Blaise Pascal ont été créées par l'Etat et la Région Ile-de-France, pour accueillir des chercheurs étrangers de très haut niveau et de renommée internationale de toutes disciplines. Les propositions doivent parvenir avant le 31 décembre. Une attention particulière sera portée aux TIC. L'appel.

Mise en oeuvre du 6eme PCRDT

Le CNRS signale que l'Inspection générale de l'administration, de l'éducation nationale et de la recherche (IGAENR) a publié un rapport de seconde phase, "Le 6e PCRDT (programme cadre de recherche et développement) : conditions de mise en œuvre administratives, juridiques et financières". Le rapport formule un ensemble de propositions concernant le renforcement de la concertation inter-organismes, la montée en puissance de la participation des universités, l'amélioration des règles de gestion contractuelles des unités mixtes de recherche ou encore les solutions à apporter aux contraintes législatives ou réglementaires particulières qui pénalisent les acteurs français. Télécharger le rapport (document PDF).

Outil intuitif de gestion de conférences

PhpMyConferences est un logiciel de gestion, d'organisation et de suivi de conférence. Il permet de décrire l'événement, de gérer les inscriptions en ligne ainsi que les réservations aux hôtels et aux activités annexes. Dans le cadre d'une conférence scientifique, on peut, en amont de la conférence, en administrer le cycle de lecture. Cet outil a été développé dans le cadre de l'Unité mixte de recherche Loria). Signalé par le CNRS. En savoir plus.


Entreprises

Financements alternatifs et réseaux d'affaires

"Capital-IT 10 : sous le signe des sociétés matures". Exit les simples levées de fonds ! L'édition de cette automne de Capital-IT privilégies les modes de financements alternatifs et les réseaux d'affaires. Selon 01 Net.

Synergie UDDI-WDSL

Parmi les titres du dernier numéro de la lettre Vendredi (VendrEDI), notons "Synergie UDDI-WSDL pour les Services Web et la SOA". Rappelons que cette publication très technique est réalisée par Claude Chiaramonti.
Les archives sont disponibles, soit hébergées gracieusement sur le site de la société Actimum d'Alain Chapdaniel, soit sur un site vendr-edi aimablement géré par Eric van der Vlist (XMLfr) :
- on peut téléchargerl'ensemble des numéros (zippés),
- les numéros récents en HTML (depuis le n° 59) s'affichent (et peuvent être téléchargés non zippés). Par exemple le n° 65 s'affiche à : http://vendr-edi.net/vendredi65.xhtml .

Le "Petit Glossaire du B2Bfr" est disponible selon deux modalités :
- soit téléchargé zippé chez Actimum ;
- soit consulté en ligne à consulté en ligne.


Manifestations

Manifestations des associations fondatrices de l'Asti

- Afia
- Afig
- Afihm
- Afrif
- ASF - ACM Sigops
- Atala
- Atief
- Cigref
- Creis
- GRCE
- Gutenberg
- Inforsid
- Specif


Le livre de la semaine

Traitement d'images : des résultats, mais plus d'illusions

Le livre Traitement et analyse des images numériques, de Stéphane Bres (interviewé dans ce numéro), Jean-Michel Jolion et Frank Lebourgeois (Hermès/Lavoisier) offre un traité général substantiel (411 pages denses) de ces techniques dans une optique théorique et pratique : modélisation, traitement (amélioration, restauration), analyse (de l'image aux primitives), images binaires, comparaison d'images.

Le chapitre introductif exprime la relative désillusion de cette communauté scientifique et industrielle, qui avait cru trop tôt à la réalisation de la "vision artificielle" et à ses applications sur le terrain : "Finalement, on ne sait pas faire grand chose (mais au moins, maintenant, on le sait !)... Le bilan de maintenant quarante années de recherche peut paraître assez mitigé si l'on considère les grands domaines applicatifs que sont la vision industrielle ou la robotique. De nombreux progrès à tous les stades du traitement ou de l'analyse sont encore nécessaires. Cependant, il existe de très nombreuses techniques performantes relevant de ces domaines. Elles ont largement démontré leur puissance et tout particulièrement pour l'extraction des informations non sémantiques contenues dans une image".

La vision artificielle suit donc le même parcours que l'IA en général. Son ouvrage fondateur reste celui de David Marr, Vision, publié chez Freeman en 1982, au moment même où les systèmes experts, les moteurs d'inférence et les bases de connaissance se sentaient des ailes et nous promettaient, marketing japonais à l'appui, une cinquième génération d'ordinateurs... Sous cet angle, l'interview de Stéphane Bres peut se comparer avec celui de Jean Charlet dans notre numéro 128, pour qui l'IA doit viser à construire des systèmes intelligibles (pour l'utilisateur) plutôt qu'intelligents !

Les auteurs, comme le confirme notre interview, sont surtout orientés vers les applications documentaires. Il est intéressant de comparer leur travail avec l'ouvrage collectif Analyse d'images, filtrage et segmentation coordonné par Jean-Pierre Cocquerez et Sylvie Philipp, publié chez Masson en 1995. On s'aperçoit avec surprise que les index ne comportent presque aucune entrée commune, alors que les tables des matières ont un air de famille. Cela s'explique parce que le plus ancien visait surtout les applications industrielles et médicales, alors que le plus récent a une orientation nettement documentaire (d'où l'importance des distances, par exemple, dont Brez et al. présente une dizaine de formules différentes, de Bhattacharyya à Minkowski en passant par chanfrein, échiquier et géodésique).

Dans sa préface au livre de Coquerez et al. Henri Maître parle de "foisonnement de travaux". Cela n'a rien d'étonnant, puisque les applications potentielles sont considérables et que les algorithmes comme les matériels font des progrès rapides. Les deux titres sont plus complémentaires que concurrents. Cependant Bres et al. est plus facile d'accès et plus homogène que Coquerez et al. , présenté comme une série de papiers distincts signés par une douzaine d'auteurs.

Bref, l'heure n'est plus aux rêves futuristes de la vision, de l'IA ou de la réalité virtuelle ni des start-ups gagnant des millions de dollars du soir au matin. A cause des échecs. Mais aussi parce que l'énormité de la production vidéo et de la Toile sature (pour un temps ?) nos capacités d'absorption et nous oblige à la modestie tout en exigeant d'importants efforts de recherche, largement représentées en France par plusieurs laboratoires qui explorent les facettes multiples de l' "image". P. B.


Détente

Qui va à la chasse, perd... ses roues

(Communiqué par Michel Chevrier)

Jeux mathématiques

Connaissiez-vous ce site qui leur est tout consacré : ffjm.jeux-mathematiques.org/

Galerie photo-peinture

Claude Chiaramonti, un des principaux artisans de l'EDI en France, a ouvert une galerie de photographies et autres oeuvres d'art, sur le site : galerie-photos-legendes.net
L'équipe ASTI-HEBDO : Directeur de la publication : Jean-Paul Haton. Rédacteur en chef : Pierre Berger. Secrétaire général de la rédaction : François Louis Nicolet, Chefs de rubrique : Mireille Boris, Claire Rémy et Armand Berger. Asti-Hebdo est diffusé par l'Inist.