Limites de la lemmatisation pour l'extraction de significations

Benoît Lemaire

Communication Dans Un Congrès Année : 2008

Limites de la lemmatisation pour l'extraction de significations

(1)

Benoît Lemaire

Fonction : Auteur correspondant
PersonId : 6023
IdHAL : benoit-lemaire
ORCID : 0000-0002-6649-1004

Connectez-vous pour contacter l'auteur

AMA - Analyse de données, Modélisation et Apprentissage automatique [Grenoble]

Résumé

La lemmatisation des corpus est une procédure répandue que l'on effectue parfois par simple respect d'une tradition. Cet article met en évidence les limites de cette opération dans le cas de l'extraction automatique d'informations sémantiques, c'estàdire lorsque le contexte d'apparition des mots est utilisé. Nous montrons dans une première partie que les contextes des formes plurielles et singulières de 58 mots dans un vaste corpus diffèrent significativement, ce qui laisse penser que remplacer les uns par les autres peut affecter les performances des systèmes d'extraction de significations. Dans une second partie, nous recourons à l'analyse de la sémantique latente (LSA) pour montrer d'une autre manière que les contextes des deux formes ne sont pas les mêmes et que les performances du système sur un test de vocabulaire diminuent dès lors que le corpus est lemmatisé. La lemmatisation des corpus pour un tel usage va donc peutêtre à l'encontre du but recherché.

Mots clés

Domaines

Fichier principal

jadt2008.pdf (630.69 Ko)

Origine	Fichiers produits par l'(les) auteur(s)
Licence	Autorisation HAL

Connectez-vous pour contacter le contributeur

https://hal.science/hal-00385750

Soumis le : mercredi 20 mai 2009-09:29:06

Dernière modification le : samedi 27 septembre 2025-18:32:59

Archivage à long terme le : jeudi 10 juin 2010-23:28:14

Dates et versions

hal-00385750 , version 1 (20-05-2009)

Licence

Autorisation HAL

Identifiants

HAL Id : hal-00385750 , version 1

Citer

Benoît Lemaire. Limites de la lemmatisation pour l'extraction de significations. 9e Journées internationales d'Analyse Statistique des Données Textuelles, Mar 2008, Lyon, France. pp.725-732. ⟨hal-00385750⟩

Exporter

Collections

1876 Consultations

777 Téléchargements

Limites de la lemmatisation pour l'extraction de significations

Résumé

Mots clés

Domaines

Dates et versions

Licence

Identifiants

Citer

Exporter

Collections

Partager