LexSynt

 
Accueil
Le projet
Documents
Descriptif du projet
1 — Objectifs du projet

Le lexique est la pièce maîtresse d'un modèle linguistique (ce que nous appelons modèle linguistique est généralement appelé grammaire formelle, notamment dans la tradition anglo-saxonne ; ici nous réservons le terme grammaire à la grammaire proprement dite, qui constitue à coté du lexique, l'autre composante du modèle linguistique). Il est impossible de faire une analyse automatique fine d'un corpus tout-venant sans avoir un lexique riche. Et il est donc impossible de tester des analyseurs ou des grammaires en vraie grandeur sans lexique.

Le développement d'un lexique à large couverture est une tache considérable, qui peut difficilement être assumée par une seule équipe. Un dictionnaire du français courant comme le Petit Robert comporte environ 60.000 entrées. Mais chacune de ces entrées doit être découpée en autant d'acceptions (jusqu'à 40 pour un verbe comme faire et environ 300.000 sens différents sur l'ensemble du Petit Robert). Chaque entrée est aussi reliée à un ensemble de formes fléchies (51 formes simples pour un verbe français). Et surtout, les unités lexicales ne constituent qu'une part des entrées d'un lexique. A celles-ci s'ajoutent les unités lexicales complexes (mots composés, locutions) et les collocations (qui, bien que pouvant être traitées de façon semi-compositionelle, constituent tout de même des sortes d'entités lexicales), très mal représentées dans les dictionnaires usuels, et que l'on estime à plus d'un million pour le seul français courant. Enfin, à chaque entrée correspond un grand nombre d'informations (sur lesquelles nous reviendront par la suite) qui doivent être organisées entre elles et traitées de façon consistante sur l'ensemble du lexique. Ceci fait d'un lexique une masse de données importante et particulièrement complexe, car fortement structurée selon deux dimensions complémentaires : une micro-structure, la structure des entrées prises individuellement, et une macro-structure, la structure globale du lexique, avec un réseau de liens entre les entrées très dense (de type small world) et une organisation non strictement hiérarchique des différentes classes lexicales (nécessitant un recours à l'héritage multiple).

L'objectif principal du projet est de faire coopérer plusieurs équipes spécialisées dans la modélisation et le traitement automatique des langues (TAL) autour du développement de modèles linguistiques du français. L'accent est mis ici sur les lexiques syntaxiques et sémantiques, sachant que ceux-ci ne peuvent être développés sans une vision globale du modèle linguistique et notamment de l'interface lexique-grammaire.

Lexiques syntaxiques et sémantiques constituent l'équivalent formalisé des dictionnaires usuels destinés au grand public. Les entrées de ces lexiques sont les unités lexicales de la langue, y compris les locutions et collocations, qui représentent la plus grande part des entrées. Le lexique sémantique contient la description des sens des unités lexicales, par exemple par l'intermédiaire d'une décomposition en sèmes ou d'une définition formalisée. Le lexique syntaxique contient les particularités syntaxiques des unités lexicales, du point de vue de l'ordre des mots ou de la compatibilité avec des constructions syntaxiques particulières, et en particulier les informations concernant les caractéristiques syntaxiques des arguments (la sous-catégorisation et le régime). Les deux lexiques sont fortement liés, notamment à travers la délimitation des unités lexicales et des arguments syntaxiques et sémantiques de ces unités lexicales. Il s'agit par contre de ressources clairement distinctes d'un lexique morphologique, lequel met simplement en relation les formes fléchies avec les lemmes (exemple : irons = ALLER, indicatif, présent, 1ère personne, pluriel).

La communauté scientifique dispose maintenant de lexiques morphologiques à large couverture pour le français, mais pas de lexiques syntaxiques ou sémantiques librement accessibles et interfacés avec une grammaire. La communauté scientifique francophone est néanmoins pionnière dans le développement de lexiques syntaxiques et sémantiques.

Le lexique-grammaire initié au LADL par Maurice Gross au début des années 1970 et maintenant développé par l'IGM (Institut d'électronique et d'informatique Gaspard-Monge, Université de Marne-la-Vallée, resp. TAL Eric Laporte) constitue l'une des plus importantes ressources lexicales avec de riches informations syntaxiques toutes langues confondues, anglais compris. Néanmoins ce lexique vient seulement d'être rendu public et il n'a jamais été interfacé avec les grammaires développées depuis les années 1980 et notamment les grammaires basées sur l'unification.

Une autre ressource remarquable pour le français est le Dictionnaire Explicatif et Combinatoire initié par Igor Mel'cuk à la fin des années 1970 et maintenant développé sous format électronique à l'OLST (Observatoire de Linguistique Sens-Texte, Université de Montréal, dir. Alain Polguère). Ce dictionnaire formalisé et conçu pour être intégré à un modèle complet de la langue (dans le cadre de la théorie Sens-Texte) sert de référence pour de nombreux travaux théoriques sur les lexiques syntaxiques et sémantiques. Sa couverture reste néanmoins partielle et son interfaçage avec une grammaire n'est pas achevé.

Une autre ressource publique de grande ampleur est le Trésor de la Langue Française Informatisé (TLFi), développé par le laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française, dir. Jean-Marie Pierrel). Ce dictionnaire, bien que très structuré, a été d'abord conçu comme un dictionnaire grand public (pour consultation humaine) et ne peut donc constituer en l'état une composante d'un modèle linguistique du français. Il est néanmoins possible d'en extraire automatiquement ou semi-automatiquement une grande quantité d'informations précieuses pour l'élaboration d'un modèle formel. Un projet de collaboration entre l'ATILF et LED (Langue et Dialogue, LORIA) sur ce thème est déjà en place.

En plus de ces trois grandes ressources lexicales, d'autres lexiques du français existent. Tous les laboratoires ou chercheurs spécialisées dans la modélisation des langues ou le traitement automatique des langues ont constitué d'une façon ou d'une autre des ressources lexicales. Parmi celles-ci, le lexique verbal Proton, développé à l'Université catholique de Leuven dans le cadre théorique de l'approche pronominale, constitue une ressource de qualité à laquelle nous porterons un intérêt tout particulier. On peut encore citer la composante pour le français du projet EuroWordNet, même si cette ressource n'est plus maintenue et n'est pas distribué librement.

Deux autres cadres théoriques pour lesquels il n'existe pas encore de ressources significatives pour le français seront également prises en considération, notamment en ce qui concerne la nature du lexique sémantique : le Lexique Génératif (Pustejovsky 1995 ; Bouillon 1998 pour les adjectifs français) et FrameNet (Fillmore 1976, http://www.icsi.berkeley.edu/~framenet/).

A ces ressources développées manuellement par des lexicographes, il faut ajouter des ressources extraites automatiquement de corpus bruts ou annotés. Ces informations extraites automatiquement ont l'inconvénient de comporter un pourcentage non négligeable d'erreurs, mais elles ont l'immense avantage d'avoir une couverture très large et de pouvoir être pondérées par le nombre d'occurrences effectivement relevées dans les corpus. Plusieurs de nos partenaires travaillent dans cette direction : l'équipe de Didier Bourigault (ERSS, Equipe de Recherche en Sémantique et Syntaxe) qui avec l'analyseur Syntex et des méthodes originales de filtrage obtient des résultats très fiables ; l'équipe Lattice (Université Paris 7), qui travaille sur l'extraction de grammaires lexicalisées probabilistes à large couverture ; l'équipe Atoll (INRIA Rocquencourt), qui exploite ses différentes plateformes d'analyse syntaxique pour l'extraction automatique de ressources lexicales ; l'ATILF, qui démarre sur un projet d'extraction de ressources lexicales sur des corpus arborés.

Tous les lexiques du français que nous avons mentionnés, et qui sont des composantes du projet, sont développés dans des cadres théoriques différents pour des usages particuliers, ce qui les rend difficilement réutilisables ou interchangeables.

Nous nous fixons plusieurs objectifs. Sur le plan théorique, il s'agit d'abord de réfléchir sur le type d'informations que doit contenir un lexique et surtout de proposer un encodage des informations qu'il contient qui le rende utilisable par une vaste panoplie de formalismes. Il s'agit ensuite d'évaluer la qualité des lexiques existants au vu de ces résultats et d'en proposer de nouveaux formats. Pour cette raison sont partenaires du projet, en plus des développeurs des lexiques précédemment mentionnés, des spécialistes de nombreux modèles formels que nous prendrons pour cible : grammaire HPSG (Karine Baschung, Marianne Desmets, Jesse Tseng), grammaire de propriétés (Philippe Blache), méta-grammaire pour les TAG (Eric de la Clergerie, Bertrand Gaiffe, Azim Roussanaly), grammaires de dépendance (Didier Bourigault, Denys Duchier, Alexis Nasr), théorie Sens-Texte et GUST (Kim Gerdes, Sylvain Kahane, Igor Mel'cuk, Alain Polguère), approche pronominale (Piet Mertens), grammaire LFG (Lionel Clément), grammaire d'interaction (Guy Perrier, Bruno Guillaume), grammaires catégorielles astraites (Philippe de Groote), grammaires à concaténation d'intervalles (Pierre Boullier), lexique-grammaire (Eric Laporte), grammaire d'arbres polychromes (Marcel Cori). Nous collaborerons également étroitement avec la commission AFNOR RNIL « Ressources Normalisées en Ingénierie des Langues», groupe miroir du comité international ISO TC37SC4 «Normalisation de Ressources Linguistiques», dont plusieurs de nos partenaires sont membres, notamment en ce qui concerne la normalisation des lexiques avec la sous-commission « Lexiques pour le TAL » (resp. Gil Francopoulo). Ces travaux de normalisation restent d'ailleurs pour l'instant très prudents sur la partie syntaxique et sémantique, ce qui prouve qu'un travail théorique préalable est nécessaire, lequel travail ne peut être mené sans une réflexion globale sur le modèle linguistique et la façon dont lexique et grammaire s'interfacent. Outre l'interfaçage avec la grammaire, le développement de lexiques syntaxiques pose la question de l'organisation des données à l'intérieur du lexique (par exemple par un découpage en classes syntaxiques et un graphe d'héritage de propriétés associées aux classes) et donc de la « grammaire » du lexique (ou métalexique).

Sur le plan pratique, il s'agit, comme nous l'avons dit, de fédérer les différents projets de développement de modèles linguistiques et tout particulièrement les projets de développement de lexiques syntaxiques, qui constituent la tâche la plus lourde. Pour pouvoir proposer des modèles du français à large couverture, il est nécessaire d'oeuvrer au partage des ressources actuelles et d'envisager le développement d'une super-ressource partagée et idéalement libre d'accès. Une telle ressource permettraient à la fois de promouvoir le développement d'outils informatiques sur le français (analyseurs, générateurs de textes, traducteurs automatiques, agents conversationnels, etc.) et de faire du français une langue de référence dans les travaux théoriques sur la modélisation des langues.

2 — Objectifs du projet

Ce projet concerne les lexiques syntaxiques et sémantiques du français, deux composantes majeures d'un modèle linguistique du français. Comme nous l'avons dit, plusieurs ressources de ce type existent, mais l'ensemble de ces ressources se caractérise par sa grande hétérogénéité et on peut dire que, aujourd'hui, il n'existe ni standard, ni ressource qui s'approcherait d'un standard reconnu par l'ensemble de la communauté TAL.

Le développement de lexiques syntaxiques et sémantiques pose de nombreuses difficultés théoriques dont nous devrons discuter au sein du projet. Les questions fondamentales sont :

  1. l'identification des unités lexicales et notamment des expressions figées (locutions) et semi-figées (collocations) ;
  2. le traitement de la polysémie et la délimitation éventuelle des différentes acceptions d'une entrée lexicale ;
  3. l'identification des différents compléments sous-catégorisés d'une unité lexicale et la description des différents régimes
  4. la description des particularités syntaxiques de chaque unité lexicale : classe syntaxique, ordre des mots, combinaison avec des éléments grammaticaux tels que voix, déterminant, copule, etc.
  5. la description du sens d'une unité lexicale.

Le point 4 nous intéressera particulièrement. Il pose la question de l'interfaçage du lexique et de la grammaire. Il n'est en fait pas possible de développer indépendamment un lexique et une grammaire. Prenons l'exemple de la passivation : attribue-t-on la fonction de complément d'objet direct aux seuls compléments passivables ou bien donne-t-on une acception plus large au terme (incluant par exemple le complément de valoir : un peu que ça les vaut) et contrôle-t-on la passivation par un trait spécifique ? Quoi qu'il en soit, la grammaire ne pourra fonctionner correctement que si elle « sait » comment l'information est encodée dans le lexique.

La délimitation des unités lexicales et notamment celles des expressions multilexémiques (locutions et collocations) repose sur l'hypothèse de la compositionalité du sens (le sens de la phrase est obtenu par la composition des sens des unités lexicales et grammaticales). Le découpage d'un élément polysémique en différentes acceptions pointant sur différents articles de dictionnaire (lorsque ce découpage est considéré comme pertinent au niveau théorique) repose également sur une étude sémantique des unités lexicales. L'identification des éléments sous-catégorisés et le tri entre arguments/actants et modifieurs/circonstants est elle aussi motivée par des considérations sémantiques. Tout ceci nous amène à ne pas pouvoir dissocier totalement le développement d'un lexique syntaxique de celui d'un lexique sémantique. Même si les aspects syntaxiques constituent le coeur du projet, les aspects sémantiques seront largement pris en compte et l'encodage des informations de nature sémantique sera étudiées.

Le projet est d'abord un projet coopératif, visant à amener différentes équipes poursuivant des objectifs communs à partager leurs connaissances et leurs ressources. Le thème choisi est un thème central et incontournable de la linguistique théorique et informatique. Tout outil linguistique nécessite un modèle, même partiel, des langues qu'il traite et tout modèle linguistique comporte une composante lexicale, dont on sait maintenant qu'elle constitue la part la plus importante du modèle.

L'une des forces du projet est de pouvoir réunir des acteurs clés au niveau national (et international) de la modélisation des langues et tout particulièrement du français. Sont représentés à la fois les principaux spécialistes du développement de lexiques et de grammaires formels pour le français, ainsi que des spécialistes de l'analyse syntaxique et de la génération de textes. Plusieurs de nos partenaires sont également des spécialistes de la manipulation de masses de données linguistiques, de l'encodage des ressources structurées (notamment en XML) et de la normalisation des ressources.

On trouvera en annexe une présentation des différents partenaires et des ressources qu'ils souhaitent apporter au projet.

3 — Productions prévues

Le projet est d'abord un projet coopératif, visant à amener différentes équipes poursuivant des objectifs communs à partager leurs connaissances et leurs ressources. Toutes les équipes et les chercheurs impliqués ont déjà eu l'occasion de coopérer avec d'autres chercheurs ou équipes impliqués et tous sont des acteurs de la communauté TAL (Traitement automatique des langues), notamment au travers de l'association Atala, qui regroupe la plupart des chercheurs francophones en TAL. Malgré cela, peu de ressources sont échangées et les travaux des différentes équipes sont plus souvent parallèles que convergents. Le premier résultat attendu est que les équipes se rencontrent pour discuter des ressources qu'elles possèdent ou qu'elles souhaitent développer et que les futurs développements se fassent au bénéfice de l'ensemble de la communauté et pas seulement de chaque équipe prise isolément. Chacun a plus à y gagner qu'à y perdre.

Le deuxième résultat attendu est essentiellement théorique et concerne l'architecture d'un modèle complet (lexique + grammaire) d'une langue et l'interface lexique-grammaire. En confrontant lexicographes et syntacticiens, nous souhaitons que les uns et les autres s'interrogent sur la façon dont informations lexicales et grammaticales se combinent, c'est-à-dire sur la façon dont la grammaire interroge le lexique ou dont les unités lexicales déclenchent les règles de grammaire (selon que l'on adopte un point de vue grammatico-centriste ou lexico-centriste). A ces questions théoriques s'ajoute la question de l'architecture du lexique : comment compacter l'information lexicale et éviter les redondances tout en gardant une grande souplesse d'accès au lexique (notamment par le biais d'une grammaire formelle) ? Comment organiser l'information de manière à faciliter le développement et la maintenance du lexique ? Autant de questions qui doivent nous amener à proposer un format standard pour la comparaison de nos ressources lexicales et le développement de futures ressources. Cette contribution théorique devrait faire l'objet d'un recueil de publication. Dors et déjà, les partenaires ont organisé une journée scientifique sous l'égide de l'Atala qui se réunira le 12 mars (Sur l'interface lexique-grammaire et les lexiques syntaxiques, responsable Sylvain Kahane, http://www.atala.org/rubrique.php3?id_rubrique=2).

Le troisième résultat attendu est l'échange des ressources entre les partenaires. Cet échange suppose que les ressources sont diffusées dans des formats facilement récupérables du type XML et qu'elles respectent autant que possibles les critères de normalisation. Pour de nombreux utilisateurs potentiels, il est nécessaire d'en changer le format, parfois de manière significative. L'accession au lexique ne se fait pas de la même façon suivant qu'on est en analyse ou en génération de textes (dans le premier cas, on accède au lexique syntaxique par les lemmes, dans le deuxième cas par les sens). De plus, comme nous l'avons déjà dit, l'encodage des informations syntaxiques dans le lexique dépend beaucoup du formalisme grammatical adopté. Il est donc souhaitable que nos lexiques soient traduits dans les formats requis par les utilisateurs ou, mieux encore, dans des formats suffisamment génériques pour subsummer la plupart des formats requis par les utilisateurs. Ce travail de « traduction » d'un format vers un autre peut être assez coûteux et il est nécessaire d'éviter que chaque utilisateur ait à le faire pour lui.

Le quatrième résultat attendu est une évaluation des ressources engagées dans le projet et l'émergence d'une procédure d'évaluation satisfaisante. Outre les critères de couverture, de finesse de la description et de degré de formalisation des données, nous prendrons en compte, dans le cadre du projet, la possibilité d'intégrer ces ressources dans la conception d'un modèle complet du français et d'utiliser ce modèle pour l'analyse syntaxique ou la génération de textes. Ceci suppose en particulier la possibilité pour les ressources d'être traduisibles automatiquement dans les formats que nous aurons fixés.

Le cinquième résultat attendu, plus ambitieux, est la constitution d'une super-ressource par l'agrégation des ressources actuelles. Ce point pose à la fois des difficultés pratiques (chaque ressource possède sa propre architecture), théoriques (le choix d'une architecture commune) et institutionnelles (la propriété des ressources actuelles et de la ressource future). Il est en particulier important de garder la trace de l'origine des différentes informations (notamment s'il s'agit d'une information « manuelle » donnée par un lexicographe ou d'une information extraite automatiquement) tout en factorisant au maximum l'information. Nous souhaitons néanmoins, au delà de toutes les difficultés que cela posera, l'émergence d'une telle ressource et sa distribution la plus large. Certains de nos partenaires, comme l'IGM avec le lexique-grammaire, Lattice-OLST avec le Dicobjet, ou ATOLL avec les lexiques morphologiques et syntaxiques extraits automatiquement, ont déjà choisi de rendre publiques leurs ressources ce qui devrait donner une base solide pour le développement de cette super-ressource.

4 — Dimension internationale envisagée

Le projet vise à développer des ressources pour le français et les partenaires appartiennent tous à des nations francophones. Il regroupe déjà deux partenaires étrangers : OLST de l'Université de Montréal pour le Québec et ATV de l'Université de Leuven. Deux équipes suisses seront contactées : Pierrette Bouillon de l'Université libre de Bruxelles qui travaille dans le cadre du Lexique Génératif et Eric Wehrli du LATL à l'Université de Genève qui travaille dans le cadre de modèle informatique de la grammaire générative.

Par ailleurs, le groupe de recherche suivra avec intérêt les projets similaires menés pour d'autres langues. La constitution d'une ressource libre pour le français tend évidemment à favoriser la prise en compte du français dans les projets internationaux de traitement automatique des langues et donc l'intervention des équipes françaises dans des collaborations internationales. De plus, ce projet pour le français a aussi l'ambition de servir de référence pour le développement de ressources similaires dans d'autres langues et donc de pourvoir les équipes françaises en qualité d'experts dans le domaine.

5 — Calendrier prévisionnel du projet (avec étapes)
  • année 1 :
    • échange des ressources et première évaluation par les différents partenaires
    • discussions théoriques sur le contenu que devraient avoir les ressources lexicales
  • année 2 :
    • élaboration d'un format d'échange des ressources et d'interface avec les grammaires
    • enrichissement des ressources existantes ou développement de nouvelles ressources dans le nouveau format
  • année 3 :
    • mise à un format commun des ressources
    • élaboration d'une super-ressource
Site Web : B. GUILLAUME
Valid XHTML 1.1! Valid CSS!