Le réseau E-Inclusion - Christian Aubry

Ce texte est la première version d’un article rédigé pour le CRIM (Centre de recherche informatique de Montréal). Une seconde version, réduite d’un tiers et légèrement remaniée par mes soins, a été publiée dans le magazine @cceleraTIon no 9 (automne 2006).

Pour des nouveaux médias accessibles aux handicapés visuels et auditifs

Vous souvenez-vous du projet MADIS ? Conduit par le CRIM en 2003, en partenariat avec CANARIE et l’ONF, ce projet de R-D avait pour objectif de développer des technologies de pointe d’analyse sonore, de reconnaissance de la parole et de vision artificielle afin d’indexer automatiquement le contenu sémantique des films et, ainsi, de faciliter la recherche de séquences au moyen de mots-clés. Trois ans plus tard, un nouveau projet reprend cette expertise, en l’appliquant, cette fois, à l’accessibilité des médias numériques pour les personnes handicapées visuelles et auditives. Il s’agit du Réseau E-inclusion.

E-inclusion est un concept mondial englobant tous les efforts que les sociétés modernes doivent fournir afin de réduire la « fracture numérique », cette inégalité d’accès aux technologies numériques et à l’information qu’elles véhiculent. Trois types de population son visées : les personnes désavantagées par l’éducation, l’âge, le sexe ou l’origine ethnique, les personnes handicapées et, enfin, celles qui vivent dans des régions géographiquement défavorisées du point de vue de l’accès à l’information.

Partant de ce concept, explique Pierre Dumouchel, professeur au département de génie logiciel et des TI de l’École de technologie supérieure (ÉTS) et vice-président scientifique du CRIM, « On s’est dit que ce qu’il y a de malheureux avec les nouveaux médias, au Canada, c’est qu’une couche de la population ayant des déficiences visuelles ou auditives en est exclue. On a donc formé un consortium de chercheurs afin de développer des outils permettant d’augmenter l’accessibilité à l’information produite, sous forme cinématographique ou vidéo, par le milieu des arts, de la culture et des nouveaux médias. »

C’est ainsi qu’est né le Réseau E-inclusion, officiellement lancé le 27 mars dernier dans les locaux du CRIM. Il combine l’expertise des chercheurs de l’École de technologie supérieure, de l’Université de Montréal, de l’Université Laval, de l’Université McGill et du CRIM à l’expérience de plusieurs partenaires. Parmi ceux-ci, certains produisent des contenus numériques : ONF, TVA, parlements du Canada et de la Colombie-Britannique. D’autres disposent d’une grande expérience dans les technologies d’accessibilité : AudioVision Canada, Oralys, Ryshco Media, SpeechGadgets et le Conseil national de recherches Canada. D’autres, enfin, représentent les clientèles ciblées : Institut national canadien pour les aveugles (INCA), Association des malentendants canadiens, Regroupement des aveugles et amblyopes du Québec (RAAQ) et Regroupement québécois pour le sous-titrage (RQST).

À eux tous, ces participants et partenaires disposent d’une vaste expertise en reconnaissance de la parole, en vision et imagerie, en audiovision (description sonore de contenus visuels), en sous-titrage, en ergonomie et accessibilité, en développement et en gestion de projets. Par ailleurs, Patrimoine canadien participe activement, fournissant l’appui du milieu culturel et finançant en partie le projet par le biais de son Fonds des réseaux de recherche sur les nouveaux médias.

Le Réseau E-inclusion a divisé le travail de R-D en trois thématiques. La première s’intéresse à l’interaction et à l’extraction de contenus audiovisuels. Elle recouvre des travaux sur le sous-titrage intelligent et sur l’encodage du contenu audiovisuel réalisés par le CRIM et le Laboratoire de vision et systèmes numériques de l’Université Laval.

Langis Gagnon, chercheur principal de l’équipe Vision et imagerie du CRIM, explique ainsi la problématique du sous-titrage intelligent : « On cherche à minimiser les aller-retours de l’oeil entre la zone ou se passe l’action et les sous-titres. Nous présentons donc toutes sortes d’émissions à des personnes atteintes de déficiences auditives en mesurant, à l’aide d’un oculomètre, le déplacement de leurs yeux sur l’écran. Cela nous permet de mesurer la charge cognitive associées à différentes dispositions en vue de la réalisation d’un outil de composition qui s’appuira sur l’extraction automatique d’information sur le contenu et l’activité de mouvement de chaque scène afin d’y placer les sous-titres adéquatement. »

Selon Denis Laurendeau, professeur et expert en vision à l’Université Laval, la problématique de l’encodage du contenu audiovisuel « porte sur la compréhension des activités humaines à partir de séquences vidéos, dans le but de sous-titrer vocalement les films. La première partie des recherches porte sur le suivi de personnes dans les séquences. Une fois cette étape franchie, nous nous attaquerons à l’analyse du mouvement pour identifier quelques activités de base comme marcher, courir, s’asseoir, se lever, rencontrer une autre personne. »

Ainsi, on espère arriver à créer des outils capables d’ajouter automatiquement ou semi-automatiquement, sur une piste sonore spéciale, des informations pertinentes que les aveugles et déficients visuels ne peuvent actuellement pas percevoir. L’un des sous-projets vise à déchiffrer automatiquement les textes apparaissant dans l’image afin de les inclure dans l’audiovision : sous-titres, panneaux, numéro d’autobus, noms de commerces ou de compagnie aérienne, etc. Toutes ces recherches et développements aideront également les archivistes à trouver et à extraire du contenu audiovisuel à partir de bases de données vidéo.

La seconde thématique porte sur la reconnaissance de la parole et du contexte sonore. Son objectif consiste à améliorer les performances de la reconnaissance vocale et à créer des applications, destinées au secteur culturel, qui automatiseront certaines opérations très coûteuses en frais de main-d’oeuvre, telles que la post-synchronisation, la correction des scripts, le sous-titrage en direct et en différé.

Au coeur de la technologie de reconnaissance vocale, les applications culturelles font face à la difficulté d’adapter les modèles de langages à divers locuteurs. Le lexique est vaste, les environnements sonores changent et il y a énormément de variabilité dans la voix. Le style, les accents et les émotions complexifient encore le travail de reconnaissance. Les chercheurs du CRIM s’appliquent donc à raffiner l’analyse du contexte phonétique, les techniques d’apprentissage automatique, la modélisation acoustique, la modélisation du langage ainsi que diverses techniques d’analyse discriminante.

Ces avancées permettront ensuite de bâtir des applications culturelles plus performantes. À l’ÉTS, par exemple, l’équipe de Pierre Dumouchel travaille à un projet de sous-titrage des pièces de théâtre visant à rendre celles-ci accessibles aux personnes sourdes, mais qui peut aussi s’avérer très utiles lors de tournées internationales. Les problématiques techniques se doublent d’impératifs artistiques et de facteurs humains. Un dialogue constant entre les chercheurs, les artistes et les associations de malentendants est nécessaire afin de parvenir à un résultat optimal pour tous.

L’ÉTS est également impliqué dans un sous-projet visant à détecter le contenu émotionnel de la parole, comme l’inflexion de la colère, par exemple. Cette technologie aura de multiples applications au plan de l’enrichissement de l’expérience multimédia des sourds et des malentendants. Elle introduira également l’émotion comme nouveau critère discriminant dans les opérations de reconnaissance vocale, ce qui pourra être mis à profit dans des applications commerciales, comme des systèmes de traitement automatique des appels, par exemple.

Au département de génie électrique et informatique de l’Université McGill, le professeur Richard Rose développe un système de prise de notes de cours automatique extrêmement passionnant. Il s’agit d’indexer automatiquement des enregistrement sonores et vidéo de cours magistraux, pouvant être assortis de diapositives électroniques. À l’ère de l’enseignement à distance et en différé, en effet, la masse de matériel multimédia disponible va devenir si importante qu’il sera rapidement impossible d’y trouver ce que l’on cherche sans de bons systèmes d’indexation et de requête. La technologie de la reconnaissance de la parole est donc mise à contribution afin de produire, à coût très bas, une représentation textuelle des conférences audiovisuelles susceptibles d’être ensuite intégrées à des systèmes de recherche. Les étudiants pourraient alors facilement consulter les résultats, sélectionner les conférences qu’ils jugent pertinentes et les visionner. Les handicapés visuels et auditifs, quant à eux, accèderont ainsi à l’essentiel, soit les bandes sonores et les diapositives de cours, dont les textes sont déjà accessibles.

James Turner Le dernier thème de recherche du Réseau E-inclusion est l’audiovision interactive et adaptable, cette « voix off » que l’on ajoute aux films et émissions de télévision à l’intention des aveugles. « Ce qui est intéressant avec le Réseau E-inclusion, explique James Turner, professeur à l’École de bibliothéconomie et des sciences de l’information de l’Université de Montréal, c’est qu’il nous permet de travailler avec des aveugles et des malvoyants en leur demandant d’évaluer la qualité de la description auditive des images. Grâce à cette approche, nous allons produire des lignes directrices très précises pour les gens qui rédigent les textes d’audiovision. »

Ce genre de guide technique a déjà été réalisé, avec l’aide du RQST, dans le domaine du sous-titrage, précise Pierre Dumouchel, mais au niveau de l’audiovision, cela n’existe pas. « Quand on l’aura, on va prendre toutes les composantes du projet E-inclusion, qui sont à la fois complémentaires et liées, et on va tenter de réaliser un outil pour produire l’audio-description. Ce ne sera pas un outil entièrement automatisé, mais un outil qui augmentera de façon significative la productivité des gens qui la produisent, parce qu’actuellement, c’est une opération très coûteuse. »

En conclusion, Pierre Dumouchel fait valoir la richesse des expertises fédérées par le Réseau E-inclusion, qui se comparent avantageusement à celles des grands projets européens ou américains similaires. « Google, Yahoo, Microsoft ou PBS s’intéressent aussi à l’indexation audiovisuelle, remarque-t-il, mais toutes ne l’appliquent pas à la niche du milieu culturel et à l’accessibilité pour les personnes handicapées visuelles ou auditives. » Les compagnies privées ont, en effet, plutôt tendance à innover pour les bien entendants et les voyants qui représentent 90 % du marché. Une constatation qui rend ce projet d’autant plus nécessaire, d’après lui.

» Christian Aubry

Pour des nouveaux médias accessibles aux handicapés visuels et auditifs

Une réflexion sur « Le réseau E-Inclusion »