L’annotation morpho-syntaxique d’un texte consiste essentiellement à associer des informations lexicales, grammaticales et flexionnelles aux formes présentes dans un texte. L’objetif de l’annotation est de pouvoir effectuer des recherches complexes sur une représentation abstraite d’un mot et de lister leur contexte d’occurrence. La recherche est composé de critères de recherche. Les critères peuvent porter, par exemple, sur des variations d’une forme canonique sur des motifs syntaxiques (syntactic pattern), sur des traits flexionnels, ou une combinaison complexe de ces critères. Nous avons choisi l’outil Unitex, un processeur de corpus multilingue, afin de traiter les textes de notre prototype. Le processeur de corpus Unitex a été conçu au départ pour le français et l’anglais. Le traitement des autres langues nécessite des choix linguistiques d’annotation, des adaptations et des ajustements du logiciel de ce processeur.
Par rapport au français et l’anglais, la langue arabe se distingue par trois caractéristiques:
-
l’ubiquité des infixes, formalisés par des racines et des schèmes dans la morphologie traditionnelle. Ces infixes sont présents dans la conjugaison des verbes, et dans les pluriels brisés;
-
l’écriture optionnelle des diacritiques à la fin d’un mot qui marque le cas grammatical dans un texte;
-
des agglutinations de particules grammaticales, ou clitiques au debut et en fin de mot.
Afin de donner des solutions pour annoter des formes réalisés en surface, nous avons pris les décisions suivantes.
-
Les formes fléchies (verbe conjugué, nom/adjectif au féminin pluriel) seront regroupées sous un même lemme ou forme canonique d’un mot et non sous une racine et un schème. Ainsi, un verbe conjugué sera représenté para un lemme, un ensemble de traits flexionnelles associées à sa conjugaison. Un nom fléchi est représenté par le lemme, généralement au masculin ou féminin singulier, et des traits flexionnels comme genre et nombre et éventuellement définition et cas.
-
Quand la diacritique finale est explicitée, le cas de ce nom serait annoté; dans le cas contraire, le cas serait omis de l’annotation. La présence des diacritiques (l’indéfini accusative, /-an/, –aAF, tanwin al-nasb) est non négligeable dans le corpus.
-
Une conjonction de coordination, de subordination, une préposition peut s’agglutiner au début d un verbe ou un nom. Un pronom peut s’agglutiner à la fin d un verbe ou un nom. Ces segments sont identifiés dans les formes et seront pris en compte dans l’annotation du corpus.
Un mot est une suite d’un ou plusieurs segments séparées par des accolades { } dont le format est le suivant:
{forme_fléchie,lemme,CAT: traits-flexionnels }
-
la forme fléchie est le segment identifié du mot en surface, qui est représenté par un lemme sous-jacent, une catégorie grammaticale et un ensemble de traits flexionnels liés à sa catégorie.
-
le lemme sous-jacent est la forme canonique choisi par la tradition grammaticale. Si le lemme est identique à la forme fléchie, alors il est omis.
-
CAT est la catégorie grammaticale de ce lemme: Verbe, Nom, Adjectif, Adverbe, préposition, ...
-
Les traits-flexionnels sont relatif à la catégorie grammaticale. Pour un verbe: voix, temps, personne, genre, nombre, et mode. Pour un nom: genre, nombre, définition et cas, ...
Les deux exemples suivants illustrent deux suites d’agglutination de segments :
Autour d’un nom: |
وبافعالهم
|
{وَ,.CONJC} {بِ,.PREP} {افعال,فعل.N:q} {هم,ه.PRO+Gen:3mp}
|
Autour d’un verbe:
|
فاعطاهم
|
{فَ,.CONJC} {اعطا,أعطى.V+pro:aP3ms} {هم,ه.PRO+Acc:3mp}
|
Nous détaillons ci-après les valeurs des traits flexionnels des principales catégories grammaticales, à savoir, les verbes, les noms et les adjectifs.
Pour un verbe, les traits flexionnels sont :
-
Voix: active (a), passive (b);
-
Temps:
-
Perfect (accompli), Imperfect(inaccompli), Imperatif (Y),
-
participe present (F), participe passé (M) ;
-
Personne: 1, 2, 3;
-
Genre: masculin, feminin;
-
Nombre: singulier, duel, pluriel;
-
Mode: iNdicatif (N), Subjonctif, Jussif, Energetique.
Pour un nom ou un adjectif, les traits flexionnels sont :
-
Genre: masculin, féminin;
-
Nombre: singulier, duel, pluriel régulier (p), pluriel brisé(q);
-
Définition: Défini, indéfini, annexé (mudaf)
-
Cas : Nominatif, Accusatif, Génitif.