Numéro 73 - Avril 2004

Industrie de la langue, vous êtes plutôt TIL ou TAL ?


La Rédaction


Tout le monde en parle ! Linguistique, sémantique, industries de la langue... Petit conseil : lorsque l’on aborde l’ingénierie linguistique, mieux vaut se situer sur le plan des usages. Concrètement, cela se résume à savoir faire la différence entre TIL et TAL. Nous voilà bien avancés ! C’est pourtant ce que nous vous proposons de faire en compagnie de Marianne Dabbadie qui a réalisé ce dossier. Suivons le guide...



Dans le domaine de l’ingénierie linguistique, les liens entre industrie et recherche sont extrêmement denses. La plupart des chercheurs ont un niveau soit de début soit de fin de troisième cycle universitaire. " Les liens entre industrie et recherche apparaissent très clairement au travers des consortiums constitués en 2002 pour l’appel à propositions Technolangue " nous dit Joseph Mariani, directeur du département TIC, au Ministère de la Recherche. Dans le domaine associatif, les deux associations qui tiennent le haut du pavé sont particulièrement représentatives de cette structure bi-céphale.
Pour la recherche universitaire, l’ATALA (Association pour le Traitement Automatique des Langues), extrêmement dynamique depuis vingt ans, organise tous les ans la conférence TALN, grand messe de la communauté francophone de recherche en Traitement Automatique des Langues.
Côté industrie on trouve l’APIL (Association des Professionnels des Industries de la Langue). Créée en 2001 à l’initiative d’Alain Couillault, après son départ de LexiQuest, l’APIL compte aujourd’hui près d’une centaine de membres, participant ou susceptibles de participer au tissu économique de ce secteur.
L’association, outre les informations qu’elle diffuse quotidiennement sur sa liste radio-apil, a constitué un répertoire des entreprises et des métiers des industries de la langue sur son site www.apil.asso.fr. Par ailleurs, dans le cadre de l’appel à projets Technolangue, l’APIL participe à la mise en place du portail Technolangue.net.

Etes-vous plutôt TIL ou TAL ?

Quel avenir pour les industries de la langue ? Encore s’agit-il de savoir de quoi on parle. Quand on parle d’ingénierie linguistique, il faut se situer sur le plan des usages, autrement dit, savoir faire la différence entre TIL et TAL.
Les purs du traitement sémantique vous parleront de TAL (Traitement Automatique des Langues). Les éditeurs de logiciels de veille se situent sur le plan du TIL (Traitement informatique de la langue). La différence, l’opposition presque, entre TIL et TAL c’est ce qui sépare le conceptuel du pratique, et d’une certaine façon, l’applicatif de la R & D. Les TAL sont les producteurs de réseaux sémantiques et de moteurs d’analyse de contenus.
Pour schématiser, les TIL sont la plupart du temps les entreprises soit qui intègrent ces technologies dans leurs applications, soit qui traitent la langue au moyen de méthodes probabilistes. Pour les TAL, les TIL sont en quelque sorte les comptables de la linguistique.
" La définition stricte de l’ingénierie linguistique ", nous dit Stéphane Chaudiron, chargé de mission IST et Ingénierie Linguistique au Ministère de la Recherche, " voudrait qu’on ne parle que des sociétés qui ont une offre en matière de traitement de la langue fondée sur des technologies linguistiques. Or, on trouve de plus en plus de solutions qui intègrent d’autres types de technologies notamment statistiques ou probabilistes. Je pense à des sociétés comme Infogenia, Amoweba, Mapstan, Exalid, entreprises qui, selon une vision restrictive de l’ingénierie linguistique ne seraient pas prises en compte, mais qui participent du marché ".
Aujourd’hui, la distinction entre les différents types d’approches tend à s’estomper, non pas d’un point de vue technique, mais d’un point de vue industriel. C’est pourquoi on parle de nos jours, d’Industries de la Langue, plutôt que de Traitement Automatique des Langues.

Quels financements pour la recherche ?

Les Réseaux de Recherche et d’Innovation Technologique (RRIT), co-financés par les Ministères de la Recherche, de la Culture et de l’Industrie sont parvenus pour la plupart au terme d’un cycle d’existence qui les amène à aborder une période d’évaluation. À l’issue d’une évaluation positive, le RNRT (Réseau National de Recherche en Télécommunications) est officiellement renouvelé. L’avenir des trois autres réseaux co-financés par les Ministères français – à savoir le RIAM (Réseau d’Innovation Audiovisuel et Multimedia), le RNTL (Réseau National des Technologies Logicielles) et le RMNT (Réseau de Micro et Nano Technologies) - est encore incertain. Il dépendra d’une part, du résultat de leur évaluation au terme d’une première période d’existence et d’autre part, de la disponibilité des financements publics alloués à ce type de recherche.
Entre 1998 et 2002, les réseaux ont financé la recherche à concurrence de 720 millions d’euros, dont 360 millions pour la recherche publique, financée à 100 %.
Par ailleurs, le programme Technolangue a été lancé en 2002, autour de quatre axes : la création de ressources linguistiques réutilisables, dans le but de diminuer le coût du ticket d’entrée dans le secteur, l’évaluation de technologies et d’applications, les normes et standards et la mise en place d’un dispositif de veille dans le domaine des technologies de la langue.
Grâce à un financement conjoint des trois ministères, 28 projets issus de consortiums entre les laboratoires publics et privés, ont été labellisés, dont 9 campagnes d’évaluation de technologies et, dans le domaine de la veille, un projet de portail, Technolangue.net. Il s’agit d’un portail d’information sur les industries de la langue, lancé officiellement au salon LangTech, à Paris, les 24 et 25 novembre et qui réunit divers acteurs, dont l’APIL et l’ATALA. À l’horizon 2004, Technovision, un programme de financement des recherches sur le traitement de l’image, semblable dans sa structure au réseau Technolangue, verra le jour.
Du côté de l’Union Européenne, il apparaît que 5 % de la recherche est financée par la Commission et 95 % par les états-membres, Public et Privé confondus. Un effort de financement de la R & D linguistique, de la part du secteur privé, est indispensable dans les pays de l’Union. " Il serait utile, du reste ", estime Joseph Mariani, " de créer à l’échelle Européenne, une structure associative semblable à l’APIL ".
Par ailleurs, dans le domaine de l’ingénierie linguistique, les verrous technologiques liés à la disponibilité des ressources linguistiques sont encore tels que des efforts de R & D très importants sont encore nécessaires. Pour Stéphane Chaudiron, il ne faut surtout pas ralentir ces efforts, aussi bien du point de vue des financements publics qu’en ce qui concerne le privé.

Un peu de prospective

De plus en plus de fournisseurs de solutions logicielles se positionnent aujourd’hui sur le marché des applications de Knowledge Management, ce qui témoigne d’une certaine maturité de l’offre en matière de solutions de gestion d’accès à l’information. Un bref tour des applications de KM fait ressortir quelques solutions, leaders sur le marché. Il y a Arisem, avec KM server, Lingway qui propose une suite d’outils pour le KM et la veille contenant un moteur sémantique, des outils de catégorisation, d’analyse, d’extraction, de structuration, de visualisation et de résumé. " Le tout basé sur une approche sémantique multilingue " nous dit Bernard Normier. Dans le domaine des solutions innovantes on trouve la gamme Intuition commercialisée par Sinequa ou encore la suite d’outils de KM et de CRM commercialisée par Temis. Dans le domaine de la cartographie, il y a Mapstan, qui vient de passer un accord avec Sinequa pour la visualisation des résultats du moteur de recherche Intuition.
Par ailleurs, le désir d’utiliser une interface conviviale, en langage naturel qui propose une traduction en ligne, fait désormais partie des exigences banales des internautes. Pour le grand public comme pour les entreprises, l’enjeu est désormais de faire progresser l’accès à l’information au-delà des barrières linguistiques. Des traducteurs comme Systran ou Reverso, qui intègre la technologie de l’équipe Russe, Project MT, ont le vent en poupe. De plus, avec l’élargissement de l’Union Européenne et 1,3 million de pages traduites en 2001 pour le seul parlement Européen, les systèmes d’aide à la traduction sont devenus un vecteur important de communication.
Au travers de la convergence des différents types de traitement, l’ère de l’interaction homme-machine a encore de beaux jours devant elle. De ce point de vue, la convergence et la complémentarité des technologies statistiques, connexionnistes, probabilistes, linguistiques, est un point très positif. La diversification des traitements est en train de donner naissance au monde de demain.
Marianne Dabbadie


De Erli à Lingway, le fil d’Ariane des industries de la langue

Les industries de la langue sont nées au début des années quatre-vingt-dix, de la convergence des progrès de la recherche en linguistique et des besoins de la société de l’information. En France, le passage de la recherche universitaire à la R & D à visée applicative a été initié en 1977, avec la création d’ERLI, par Bernard Normier. Mais on était encore loin de la phase industrielle.
Dans les années quatre-vingt, il y avait très peu d’acteurs sur le marché. " Nous étions trois ", précise Bernard Normier " ERLI était la première société dans ce domaine par l’ancienneté, la deuxième est T-GID (qui s’appelait à l’époque SYSTEX) et doit dater des années quatre-vingt, de même que CORA, devenue ensuite Sinequa ". Ensuite il y eut la création d’Arisem à la fin des années quatre-vingt-dix, par Stéphane Leroy et Alain Garnier. Dans un schéma beaucoup moins classique, parmi les entreprises plus anciennes et les plus stables du marché, on trouve Memodata, créée par Dominique Dutoit et Patrick de Torcy il y a quinze ans. Memodata, qui développe depuis un réseau sémantique devenu l’un des plus gros réseaux au monde, se positionne comme fournisseur de cœur de technologie. Nombre de grosses entreprises qui affichent une R & D dynamique en linguistique et se limitent en fait à la fourniture de services, se sont tournées vers cette petite entreprise normande. " Nous sommes spécialisés dans le transfert de technologie mais sommes liés la plupart du temps à nos clients par des accords de confidentialité " explique Dominique Dutoit. En 1996, ERLI est devenue une filiale de GSI avec une clientèle essentiellement constituée par les grands comptes français. Puis elle a changé de nom, en 1999, pour devenir LexiQuest, à la suite de son rachat par un groupe de Ventures Capitalists, américains et européens. LexiQuest voulait profiter de la bulle internet. Elle a été intégrée au groupe SPSS en 2001 après avoir été lâchée par ses investisseurs et licencié plus de cent personnes, parties pour la plupart exercer leur savoir-faire dans les différentes entreprises du marché. Les plus anciens sont partis avec Bernard Normier pour créer Lingway, qui compte désormais une quinzaine de personnes.


Portrait
Marianne Dabbadie


Après un DEA de linguistique informatique à TALANA (Université de Paris 7), j’ai travaillé pendant deux ans à LexiQuest tout d’abord comme ingénieur qualité puis responsable de l’assurance qualité linguistique.
Après mon départ de LexiQuest à la fin de l’année 2001, j’ai créé LingPro, éditeur de logiciels TAL et mis en place un partenariat technologique avec Memodata, pour la recherche et la commercialisation de leurs produits linguistiques. J’ai également entamé une recherche en Doctorat auprès de l’IDIOT/CESSÂTES (Université de Lille 3). Cette recherche porte sur la recherche d’un méta modèle basé sur la sémantique, pour l’évaluation des logiciels de TAL d’une façon générale et de traduction automatique en particulier.
En mars 2002, nous avons créé EVALING, dont j’assume la présidence. Je suis également membre de l’APIL ainsi que du Conseil d’Administration d’ISKO France.
En 2003, au travers de LingPro j’ai participé avec l’équipe de l’unversité de Lille 3, à la mise en place complète de la 11e Université Européenne d’Eté ELSNET qui avait pour thème l’Apprentissage des Langues Assisté par Ordinateur. Depuis janvier 2003, LingPro participe, avec l’université de Lille 3, à la coordination scientifique de la campagne CESTA (Campagne d’Evaluation des Systèmes de Traduction Automatique) dans le cadre des campagnes EVALDA ainsi qu’à la campagne CESART (Campagne d’Evaluation des Systèmes d’Acquisition de Ressources Terminologiques).
Durant l’été 2003, LingPro a rejoint l’équipe de i-KM, pour constituer l'alliance des méthodologies du KM et de la technologie et du savoir faire du traitement automatique des langues. De plus notre offre technologique s'est complétée par une alliance avec Amoweba pour la veille collaborative et les réseaux d'experts en P2P, ainsi qu’avec Mayetic Village pour la mise en place d’espaces collaboratifs.