Concha Sanz Miguel

Le projet 'Praepositio'

Universidad de Castilla-La Mancha
csanz@csh-ab.uclm.es

Dans cet exposé, il s’agit de décrire les aléas d’un processus de numéralisation d’un dictionnaire d’équivalences prépositionnelles pour apprentissage du français par des hispanophones à partir d’une version initiale éditée sous forme imprimée (El Libro de las Preposiciones, éd. Azacanes, Tolède, 1999). L’ouvrage présente un corpus de domaine général extrait de productions écrites et orales de langue aléatoire, et les segments de ce corpus correspondent, dans la plupart des cas, à des phrases.

Le corpus, formé par les exemples authentiques qui illustrent les cas traités, constitue un répertoire des occurrences qui touchent d’une manière spécifique les propositions vides(privées de contenu sémantique intrinsèque ou stable) dont la prévisibilité d’usage est nulle ou très rare. L’emploi de ces prépositions diverge de l’espagnol au français, et la difficulté réside dans une même proportion dans les tentatives d’établir des équivalences espagnol-français qu’à l’inverse.

Le fait que, depuis le début, la version imprimée se soit adressée à un public hispanophone a occasionné que la totalité des segments, y compris ceux qui étaient destinés à établir les équivalences espagnol-français, soit en langue française.

Les unités de traduction du corpus (les exemples appariés), se trouvaient déjà annotées dans le processeur de textes de la version source afin que les unités linguistiques (UL) pertinentes fussent perceptibles pour l'utilisateur. Les occurences, ce sont les mots ou les chaînes de mots qui font l’objet de traitement, et les UL ce sont les occurences que le système va reconnaître comme valables.

Dans le processeur de la version source, il existe plus de 10 000 étiquettes associées aux UL traitées et à la connaissance linguistique que chaque cas engendre. Les étiquettes permettent l’indexation multiple, la lemmatisation des occurences du corpus en vue de l’indexation automatique, ainsi que les références croisées entre les UL et celles-ci les explications. Cependant, si la récupération du repérage des annotations pour le traitement électronique est réalisable, il n’en est pas de même pour les étiquettes.

La table des matières est en fait une taxonomie de difficultés. L’obstacle le plus important pour la réutilisation de cette connaissance dans un lexique automatique réside dans le fait que la macrostructure qui résulte de l’exégèse (analyse exhaustive sur corpus) déploie une logique linéaire qui n’est appropriée que pour des usagers humains. Cette modalité de présentation n’a rien à voir avec la distribution en arbres qu’exige l’organisation ontologique qui est en cours d’implémentation à des fins informatiques.

La version électronique, qui rassemble 3 000 cas, a un double but:

de constituer un guide de difficultés langagières conventionnel, à savoir de servir d’ouvrage de référence en ligne destiné à l'utilisateur humain non natif;
de constituer un réservoir de connaissances grammaticales lexicalisées utilisable comme support représentationnel pour une variété d’applications de technologies du langage humain (TLH) telles que les logiciels d’aide à la traduction, les bases de données terminologiques, les grammaires électroniques, etc.

À l’image de la version source, le logiciel que nous confectionnons permettra à l'utilisateur, une fois la langue d’entrée choisie, de se déplacer dans le dictionnaire soit à travers l’alphabet, soit à travers une structure conceptuelle, c’est-à-dire, en parcourant le lexique bilingue, ou en visitant les connaissances associées à ce lexique. Cette version maintiendra l’option de références croisées du dictionnaire imprimé en guise de renvois internes.

Si l’utilisateur préfère la recherche alphabétique, il pourra avoir accès aux entrées en les recherchant à travers les lettres de l’alphabet ou bien en écrivant un mot ou un groupe de mots. Pour cette option, nous allons implémenter des outils spécifiques d’analyse et de génération textuelle.

La première besogne qui s’impose pour l’implémentation d’une version électronique, c’est le processus d’extraction de l’information de la version initiale. Le mécanisme doit s’accompagner d’une prévision exhaustive des outils de vidage de l’information lexicale et descriptive a une base de données spécifique.

Ceci implique un effort d’adaptation du discours descriptif du dictionnaire source à la logique informatique, ce qui entraîne un processus de désambiguation à la main du vocabulaire d’origine dans le but de le convertir en routines terminologiques dont la consistance est indispensable pour la construction d’un système de représentation formelle apte à l’utilisation par d’autres applications.

Le lexique informatique est le réservoir de l’information linguistique détallée et des spécifications qui lui sont associées. La représentation de cette information exige la création ou l’adoption de formalismes. Le schéma conceptuel qui articule le formalisme interne est monolingue (espagnol) et sert de support intégrateur pour définir aussi bien le formalisme interne ou de machine, que l’externe ou d'utilisateur, établissant les fondements d’une interaction performante homme-machine et machine- machine, tout en assurant son utilité pour une pluralité de tâches.

Compte tenu qu’il n’existe pas encore de conventions terminologiques, ni même un consensus tacite entre linguistes, psycholinguistes, linguistes informaticiens et ingénieurs, sur le mode général où il faudrait représenter ce type d’information, dans un premier temps, nous avons choisi de développer nos propres formalismes en suivant un modelage neutre afin de nous donner les moyens d’explorer leurs possibilités d’assimilation à des systèmes déjà implémentés. Par ce procédé, nous tentons d’assurer la connectivité avec d’autres applications d’ingénierie linguistique, persuadés que la viabilité des applications de traitement du langage naturel (TLN) dépend de son niveau de standardisation.

Une autre particularité que nous souhaitons conférer à notre application, c’est l’indépendance de son ontologie des langues de référence. L’espagnol et le français étant des langues romanes, l’absence de distinction dans le discours formel se révèle particulièrement avantageuse, car elle permet qu’une architecture sémantique unique puisse servir à caractériser toutes les UL, tant au niveau de la phase d’analyse (INPUT) qu’au niveau de la phase de génération (OUTPUT).

Pour le stockage des cas, en accord avec les tendances actuelles de la lexicographie du corpus, une observation rigoureuse sans égal du comportement réel du phénomène prépositionnel en français, considéré du point de vue du locuteur espagnol, a été effectuée. Le travail de terrain intense qui s’est déroulé a mis en évidence la présence de nombreuses généralisations dont, jusqu’à présent, on ne pouvait avoir connaissance que par des moyens intuitifs. Cependant, dès qu’on tente d’exposer une typologie de difficultés langagières à l’intelligence artificielle, l’un des enjeux essentiels de l’exigence de catégorisation, c’est bien la formalisation de l’immense répertoire d’occurences caractérisées par l’absence de règle. Tel est le cas, dans une proportion considérable, de l’usage des prépositions vides et, par extension, de la logique de leur transcription plurilingue.

La tâche implique la construction d’un système de représentation qui doit s’avérer apte à rallier, en les rendant le moins sensibles possible pour l’utilisateur final, et le plus explicites qu’il soit permis pour son appréhension par les routines informatiques, les trois axes heuristiques en présence : celui d’une grammaire déductive conventionnelle, celui d’une grammaire inductive confectionnée ad hoc et celui de l’analyse contrastive. À cette complexité, il faudrait ajouter celle de la catégorisation de cas qui se distinguent par une idiosyncrasie multiforme, puisqu’ils peuvent tenir, alternativement ou simultanément, du domaine syntaxique, morphologique ou sémantique ou, tout simplement, ne tenir d’aucun domaine.

Fragen und Kommentare / Questions and Comments / Questions et commentaires / Domande e Commenti / Preguntas y Comentarios
zuletzt aktualisiert / last updated / Dernière mise à jour / ultima attualizzazione / última revisión

Concha Sanz Miguel

Le projet 'Praepositio'

Universidad de Castilla-La Mancha csanz@csh-ab.uclm.es

Universidad de Castilla-La Mancha
csanz@csh-ab.uclm.es