LexSynt

 
Accueil
Le projet
Documents
Réunion du 12/09/2005 à Paris
  • horaire : lundi 12 septembre de 10h à 17h
  • lieu : 30, rue du Château des Rentiers, 75013 Paris - 1er étage (gauche gauche en sortant de l'ascenseur puis grande salle vitrée sur la droite)
  • métro : ligne 7, arrêt Porte d'Ivry (ou Bibliothèque de France 15 mn à pied) - Bus : lignes 83, 27, 62 et PC1
  • Ordre du jour :
    • 10h00 : discussion avec Jean-Marie Pierrel sur le projet de centre de compétence Atilf, sur l'articulation éventuelle avec Lexsynt, les besoins et la répartition des moyens, etc (ca peut etre l'occasion de présenter les moyens dont vous souhaiteriez disposer pour valoriser vos ressources)
    • 12h30 : déjeuner
    • 14h00 : discussion avec Bernard Lang sur le statut juridique des ressources (Kim Gerdes sera absent et ne fera pas l'exposé prévu initialement)
    • 15h00 : reprise de la discussion scientifique sur les formats des lexiques, planification du travail scientifique de l'année et des prochaines réunions
      • C. Gardent : Les travaux nancéens sur les tables du LADL (ce que nous avons fait, ce que nous pouvons faire, ce dont nous aurions besoin pour aller plus loin ...)
    • 17h00 : dissolution
Compte rendu (par Jesse Tseng)
présents : Sylvain Kahane (MoDyCo), Susanne Alt (ATILF), Olivier Blanc (IGM), Didier Bourigault (ERSS), Lionel Clément (Labri), Matthieu Constant (IGM), Eric de la Clergerie (ATOLL), Gil Francopoulo (Loria), Claire Gardent (Loria), Marie-Laure Guénot (LPL), Bruno Guillaume (Loria), Eric Laporte (IGM), Alexis Nasr (Lattice), Sébastien Paumier (IGM), Guy Perrier (Loria), Jean-Marie Pierrel (ATILF), Javier Sastre (IGM), Jesse Tseng (Loria)

Exposé de J-M Pierrel

l'ATILF répond à un appel d'offres du CNRS création d'un centre de compétence ("CC") pour les corpus, dictionnaires, lexiques (et outils)

il ne s'agit pas de financer le développement de nouvelles ressources mais d'assurer la pérennité des ressources

3 niveaux d'organisation

  1. centre de compétence
  2. centres partenaires / centres de ressource
    pas de centralisation absolue
    pas de fonction recherche
    comment coder, normaliser, distribuer une ressource, assurer sa pérennité
    gestion des métadonnées, fournir un serveur/portail
  3. équipes de recherche

premier texte (document de travail) pour motiver, expliquer candidature de Nancy, diffusé aux directeurs de labo SHS

quel positionnement par rapport à LexSynt et aux autres projets de recherche ? 2e appel d'offre pour ce genre de projet, leur donner plus de moyens (financiers) sans être leur principal financement

rôle du centre de ressources : proposer une palette d'outils (de distribution)

  • ressources totalement libres (risque de "vol")
  • licence type "logiciel (ressource) libre" téléchargeable, modifiable, redistribuable avec référence
  • ressource libre à la Morphalou non retransférable il faut prendre contact avec propriétaire pour recherche
  • consultation uniquement avec logiciel associé d'interrogation cf. TLFi, Frantext possibilité abonnement (payant ou non)
  • ressource sous droits, accès (commercial) à négocier

CNRS vraisemblablement validera peu de centres, a demandé une concertation préalable

  • certain nombre d'équipes se sont identifiées comme centre de ressources (Didier B, MLV, textes anciens, Larousse 1905 informatisé, créoles à Orléans)
  • isoler la partie recherche (déjà financée, plus ou moins par ILF) en vue du 2e appel d'offre

rôle d'ELRA ? ELRA gère (vend) les ressources avec exclusivité cette politique a changé ? ELRA n'est pas considéré (par le Ministère etc.) comme l'association _officielle_ (mais incohérence, le CNRS impose parfois la collaboration avec ELRA) par ex. Technolangue, ELRA a un statut privilégié

CNRS cherche à "mutualiser" les ressources mais cela exige énormément de moyens

  • souhaite que les ressources qu'il a (largement) financées soient distribuables à la communauté sans passer par une autre agence
  • ne plus financer des projets qui n'ont pas une idée claire pour la distribution

organisation du CC

  • conseil technique, dizaine de personnes discussion de la validité, du mode de distribution pour chaque ressource
  • comité scientifique : rôle de regrouper les besoins de la communauté, quelles ressources à mettre en oeuvre, l'intérêt de la ressource quelles sont les priorités que se donne la communauté

pas une instance de moyens pour subventionner des projets mais une cellule de moyens humains pour organiser les projets, recenser leurs besoins

Technolangues 2 : objectif d'élargir le catalogue de l'ELRA incompatibilité ? OK mais non-exclusivité, refuser de signer une telle convention soutien du Ministère sur ce point mais désavantage pour nos équipes (par rapport aux équipes qui n'exigeraient pas la non-exclusivité) réponse globale de la communauté : plus de poids

appel lancé par le Département SHS, focalisé sur la section 34 pour démarrer il y aura des discussions avec d'autres EPST

comment s'y prendre, si on a un lexique ou autre ressources

  • demande de moyens (tutelle CNRS) le contrat précisera une collaboration avec le centre de compétence
  • sinon assurer seul le développement et la valorisation transmet au centre de compétence juste les métadonnées pour que la ressource soit répertoriée
  • mais moyens disponibles pour prendre en charge le travail de validation, mise en format pour exploitation plus large

ressource répertoriée considérée comme une publication pour évaluation par le CN

moyens humains

  • structure de l'ATILF : 6 chercheurs CNRS pour 45 ITA en "phase de renouvellement" (alors affectation de certains ITA au centre de compétence, refléchage des nouveaux recrutements)

avis du comité scientifique : quelle zone d'influence ?

  • un directeur de labo a intérêt a suivre l'avis du comité...

appel d'offres en 2e phase (initialement prévu sur crédits 2005, mais retardé)

  • centres de comptétence ont mission de prendre contact avec les équipes de recherches susceptibles de répondre à cet appel
  • aucune idée des moyens (certainement pas du niveau grands ou même moyens équipements)

collaborations à l'étranger : équipes partenaires peuvent aussi faire appel au centre de compétence ? oui, s'ils le souhaitent (la question des moyens, ex. ACI, est plus compliquée)

  • la participation d'équipes étrangères est même un des critères pour la sélection des centres de ressources

modes de distribution (licences) conseil scientifique conseillera, ne prendra pas la décision pour l'équipe penser à l'affectation d'un expert juridique à moyen terme ?

éviter que deux équipes du CNRS ne refassent la même ressource première tache : enquête pour répertorier les ressources existantes, identifier leurs caractéristiques (métadonnées) possibilité de sortir des ressources francaises du catalogue ELRA ?

confiance en les ressources

  • afficher le degré de confiance dans la fiche technique de chaque ressource ? pas nécessairement
  • validation par utilisateurs (fournir liste de travaux basés sur la ressource)
  • gestion de versions (pour pouvoir retrouver un état antérieur d'une ressource pour une évaluation comparative)
  • mise en avant de certaines ressources, hiérarchie (en partie déterminée par la sélection sur appel d'offres)
  • conseil scientifique pour affecter plus d'un homme-mois

directeur du CC = directeur de l'ATILF ? au départ, le CNRS souhaite s'appuyer sur une structure pérenne (pour envisager plus tard une unité autonome)

quelles centres partenaires ?

  • structures pérennes, offrant des compétences, des outils, des idées claires
  • une équipe peut demander des ressources humaines en concertation avec le CC
  • LexSynt (même si ce n'est pas un "centre", une structure pérenne) : devrait rédiger un texte pour se positionner en vue de répondre à un prochain appel d'offres
  • centres partenaires prennent des décisions scientifiques, pas forcément obligés d'assurer leur mise en oeuvre technique
  • pour l'instant : MLV, ERSS, ENS-Lyon (ciblé textes anciens/médiévaux), Loria (oral ??)

oral (un autre CC) avec centres partenaires ERSS, Lyon, LPL...

les grammaires ? indissociables des lexiques pas exclu mais aujourd'hui elles sont peu nombreuses

questions administratives

prochaine réunion : 10 novembre 2005

  • ordre du jour :
    • Gil Francopoulo LMF présentation générale exportation des lexiques dans format LMF
    • Eric de la Clergerie : exploitation des entrées via hyper-tags ?
    • le point sur les centres de compétence, appels d'offres à venir (2e phase CC, ACI, Technolangues 2)
  • site web (merci à Bruno) migration/lien vers site définitif (lexsynt.inria.fr)
  • liste de diffusion, possibilité de déposer des fichiers

Exposé de Bernard Lang

lexiques : droits des bases de données ? grammaires : plutôt droits d'auteur

nos lexiques: des bases de données ou plutôt comme des dictionnaires papier ?

Les droits des logiciels rentrent dans tous ces cadres...

1. droits d'auteur

portent sur des créations d'esprit avec une forme originale toute création qui porte l'empreinte de la personnalité de son auteur

droits finis mais non bornés

2. droits des brevets / des inventions

liés à la réalisation d'une fonctionnalité

  • un objet
  • un procédé
  • "breveter un logiciel" ?

durée de 20 ans mais il faut payer régulièrement, sinon tombe dans le domaine public

ADPIC/TRIPS : accords de l'OMC concernant la propriété intellectuelle il faut appliquer la convention de Berne (OMPI/WIPO) [aussi OEB/EPO brevets, INPI en France]

-> directives UE [ "acts" aux USA ] -> lois des états membres

3. droits des marques

sur le nom et la caractérisation (représentation symbolique) d'un produit (une trentaine de catégories, ou toutes catégories)

pour empêcher la modification et la réédition d'une ressource sous le même nom (e.g., "Lexique Syntaxique Paris 7") e.g., "Open Cola" --> "Open Cola Paris 7" conseil : nom générique (non-protégé) + nom spécifique (déposé) c.f. la paternité dans les droits d'auteur

les noms des universités : faut les déposer ? se fait couramment

4. droits des bases de données

collections "sui generis" car déjà protégées par les droits d'auteur visent à compléter, à harmoniser les droits d'auteur protéger l'investissement que représente la collection en donnant un droit exclusif sur la création

réutilisation sans licence ? non en même temps, valeur mesurée en termes d'investissement humain (qui est de moins en moins important à force d'utiliser des méthodes automatiques)

réutilisation des ressources faites à la main ? vaut mieux pas utilisation pour valider une autre ressource ? limite, peut être vue comme une extraction

CEB/EPC 1973 : sont exclus de la brevetabilité

  • formules mathématiques
  • logiciels informatiques (mais OK si le programme fait partie d'une invention complexe, e.g. ABS)

bagarre pour breveter les logiciels

  • technique = brevetable, mais tout est une question de définition
  • à l'heure actuelle, les logiciels ne sont pas brevetables

question sur les données primaires : si on utilise le corpus du Monde pour créer une ressource secondaire, le Monde a-t-il des droits dessus ? "usage personnel"

appropriation de (Euro)WordNet par ELRA : légitime ? probablement, droits cédés par contrat attaquer ELRA par les droits de la concurrence sinon, les court-circuiter, ignorer leurs droits en attendant qu'ils réagissent...

notre lexique : redistribution ? faut choisir le modèle "Creative Commons" kit de licences dans un projet fédérateur on doit se mettre d'accord avant de commencer à travailler sérieusement licence de type GPL (libre, mais pour toute commercialisation, une part revient au pot commun) LGPL-LR, créée à MLV

Exposé de Claire Gardent

Lexique syntaxique et tables du LADL

discussion

organisation de cadres extraits sous forme de métagrammaire (ou de règles lexicales)

procédure de création du graphe à partir de la table rien supprimé, rien ajouté, mais parfois un travail d'interprétation (surtout dépendances entre colonnes, l'oméga)

problème de fusionnement de lexiques (lexique TAL simplifié plus lexique existant pour un parseur donné) : méthodes à définir

le LG continue à évoluer ? oui (version web n'est pas la même que dans le livre)

licence : lexique sera un produit dérivé, donc la même licence LGPL-LR s'impose (licence "virale", peut rendre impossible le fusionnement de ressources)

peut-être envisager une collaboration avec Susanne et Eric (Laporte): projet de mise au format LMF des tables de LADL (ce qui implique une interprétation)

Site Web : B. GUILLAUME
Valid XHTML 1.1! Valid CSS!