POLYMOTS : une base lexicale de familles morpho-phonologiques


Polymots est une ressource lexicale qui présente des mots regroupés en familles. Elle a été construite de façon semi-automatique à partir d'une liste de 20 000 mots extraits du dictionnaire Larousse 2 000.

L'objectif d'une telle ressource est fondamentalement pédagogique : apprentissage du vocabulaire et de l'orthographe du français en milieu scolaire ou clinique (orthophoniste).



Caractérisation linguistique


Le modèle proposée avec Polymots illustre la notion de "famille morpho-phonologique" et est fondé sur la continuité de forme et de sens. Cette proposition, complètement en synchronie, s'ancre dans une théorie de la morphologie lexicale qui tient compte de la phonologie. Notre propos est de rendre compte d'une organisation lexicale de la langue française contemporaine sur un double principe organisationnel : phonologique et sémantique.



Aspects Morpho-phonologiques


Les mots de Polymots sont uniquement des unités de désignation : objets, activités, qualités . Le principe est de considérer que les variations phonologiques ne sont pas uniquement grammaticales (genre, nombre, etc.) mais qu'elles peuvent être aussi lexicales.

Le regroupement en familles repose sur l'idée d'un radical morpho-phonologique commun entre plusieurs mots. Le radical ou mot base constitue une unité récurrente, généralement monosyllabique, et peut avoir, ou pas, un sens dans la langue. Cette caractéristique permet de distinguer les mots 'transparents' des mots 'opaques'. Les premiers ont une réalisation phonique et un sens ("bras", "fil", "table", etc.) alors que les derniers ont une réalisation phonique mais pas de sens aujourd'hui ("ferv", "duct", "val", etc.).

Une famille regroupe en moyenne dix mots. La productivité peut atteindre plus de cinquante pour certaines familles (exemple, "scrib/script/scrir" qui donne "description", "écrivain", "inscrire", "souscrire", etc.). Dans une famille, on distingue le mot base (le radical morpho-phonologique) et les mots dérivés (décomposés en mot base et un ou plusieurs affixes). Quelques exemples :


Polymots contient 20.000 mots, regroupés en 2.000 familles, et quelques centaines d'affixes.

Aspects sémantiques


Le regroupement en familles sur un principe morpho-phonologique interroge la continuité sémantique. En effet, les mots d'une même famille partagent une continuité de forme et de sens, mais ce dernier peut s'avèrer très proche ("table" vs "tablette", "boule" vs "boulon", "bras" vs "brassard", etc.) ou très dispersé ("arme" vs "armoire", "glue" vs "déglutir", "faire" vs "confiture", etc.). Polymots rend compte de la continuité sémantique des mots des familles. Chaque mot présente son 'espace sémantique' constitué d'un ensemble d'unités de sens pondérées extraites semi-automatiquement à partir de corpus. Exemple pour "arme" :

[militaire 1] [instrument 0.82] [guerre 0.68] [attaquer 0.64] [armer 0.63] [équipement 0.55] [dispositif 0.55] [défense 0.51] [servir 0.49] [héraldique 0.47] [pouvoir 0.40] [combattre 0.40] [figurer 0.38] [destruction 0.38] [destiner 0.33] [principal 0.32] [composant 0.28] [corps 0.28] [élément 0.28] [feu 0.28] [offensif 0.28] [outil 0.28] [lutter 0.25] ...

Les poids des unités de sens recensent l'"importance" de chaque unité par rapport au mot de référence ("instrument" est très significatif pour désigner "arme"; "membre" l'est pour "bras"). Polymots permet de constater que les mots d'une même famille partagent souvent un grand nombre d'unités de sens ("bras" dans "bracelet", "brassard"; "descendre" dans "avaler" , "dévaler"; "fort" dans "glue", "agglutiner", etc.). Dans certains cas, en revanche, les unités de sens du mot base se retrouvent dispersées dans les mots de sa famille ("fil" et "défilé" partagent la notion de "continuité"; "fil" et "profil" la notion de "finesse").