Concha Sanz MiguelLe projet 'Praepositio'
|
Dans cet exposé, il sagit de décrire les aléas dun processus de numéralisation dun dictionnaire déquivalences prépositionnelles pour apprentissage du français par des hispanophones à partir dune version initiale éditée sous forme imprimée (El Libro de las Preposiciones, éd. Azacanes, Tolède, 1999). Louvrage présente un corpus de domaine général extrait de productions écrites et orales de langue aléatoire, et les segments de ce corpus correspondent, dans la plupart des cas, à des phrases. Le corpus, formé par les exemples authentiques qui illustrent les cas traités, constitue un répertoire des occurrences qui touchent dune manière spécifique les propositions vides(privées de contenu sémantique intrinsèque ou stable) dont la prévisibilité dusage est nulle ou très rare. Lemploi de ces prépositions diverge de lespagnol au français, et la difficulté réside dans une même proportion dans les tentatives détablir des équivalences espagnol-français quà linverse. Le fait que, depuis le début, la version imprimée se soit adressée à un public hispanophone a occasionné que la totalité des segments, y compris ceux qui étaient destinés à établir les équivalences espagnol-français, soit en langue française. Les unités de traduction du corpus (les exemples appariés), se trouvaient déjà annotées dans le processeur de textes de la version source afin que les unités linguistiques (UL) pertinentes fussent perceptibles pour l'utilisateur. Les occurences, ce sont les mots ou les chaînes de mots qui font lobjet de traitement, et les UL ce sont les occurences que le système va reconnaître comme valables. Dans le processeur de la version source, il existe plus de 10 000 étiquettes associées aux UL traitées et à la connaissance linguistique que chaque cas engendre. Les étiquettes permettent lindexation multiple, la lemmatisation des occurences du corpus en vue de lindexation automatique, ainsi que les références croisées entre les UL et celles-ci les explications. Cependant, si la récupération du repérage des annotations pour le traitement électronique est réalisable, il nen est pas de même pour les étiquettes. La table des matières est en fait une taxonomie de difficultés. Lobstacle le plus important pour la réutilisation de cette connaissance dans un lexique automatique réside dans le fait que la macrostructure qui résulte de lexégèse (analyse exhaustive sur corpus) déploie une logique linéaire qui nest appropriée que pour des usagers humains. Cette modalité de présentation na rien à voir avec la distribution en arbres quexige lorganisation ontologique qui est en cours dimplémentation à des fins informatiques. La version électronique, qui rassemble 3 000 cas, a un double but:
À limage de la version source, le logiciel que nous confectionnons permettra à l'utilisateur, une fois la langue dentrée choisie, de se déplacer dans le dictionnaire soit à travers lalphabet, soit à travers une structure conceptuelle, cest-à-dire, en parcourant le lexique bilingue, ou en visitant les connaissances associées à ce lexique. Cette version maintiendra loption de références croisées du dictionnaire imprimé en guise de renvois internes. Si lutilisateur préfère la recherche alphabétique, il pourra avoir accès aux entrées en les recherchant à travers les lettres de lalphabet ou bien en écrivant un mot ou un groupe de mots. Pour cette option, nous allons implémenter des outils spécifiques danalyse et de génération textuelle. La première besogne qui simpose pour limplémentation dune version électronique, cest le processus dextraction de linformation de la version initiale. Le mécanisme doit saccompagner dune prévision exhaustive des outils de vidage de linformation lexicale et descriptive a une base de données spécifique. Ceci implique un effort dadaptation du discours descriptif du dictionnaire source à la logique informatique, ce qui entraîne un processus de désambiguation à la main du vocabulaire dorigine dans le but de le convertir en routines terminologiques dont la consistance est indispensable pour la construction dun système de représentation formelle apte à lutilisation par dautres applications. Le lexique informatique est le réservoir de linformation linguistique détallée et des spécifications qui lui sont associées. La représentation de cette information exige la création ou ladoption de formalismes. Le schéma conceptuel qui articule le formalisme interne est monolingue (espagnol) et sert de support intégrateur pour définir aussi bien le formalisme interne ou de machine, que lexterne ou d'utilisateur, établissant les fondements dune interaction performante homme-machine et machine- machine, tout en assurant son utilité pour une pluralité de tâches. Compte tenu quil nexiste pas encore de conventions terminologiques, ni même un consensus tacite entre linguistes, psycholinguistes, linguistes informaticiens et ingénieurs, sur le mode général où il faudrait représenter ce type dinformation, dans un premier temps, nous avons choisi de développer nos propres formalismes en suivant un modelage neutre afin de nous donner les moyens dexplorer leurs possibilités dassimilation à des systèmes déjà implémentés. Par ce procédé, nous tentons dassurer la connectivité avec dautres applications dingénierie linguistique, persuadés que la viabilité des applications de traitement du langage naturel (TLN) dépend de son niveau de standardisation. Une autre particularité que nous souhaitons conférer à notre application, cest lindépendance de son ontologie des langues de référence. Lespagnol et le français étant des langues romanes, labsence de distinction dans le discours formel se révèle particulièrement avantageuse, car elle permet quune architecture sémantique unique puisse servir à caractériser toutes les UL, tant au niveau de la phase danalyse (INPUT) quau niveau de la phase de génération (OUTPUT). Pour le stockage des cas, en accord avec les tendances actuelles de la lexicographie du corpus, une observation rigoureuse sans égal du comportement réel du phénomène prépositionnel en français, considéré du point de vue du locuteur espagnol, a été effectuée. Le travail de terrain intense qui sest déroulé a mis en évidence la présence de nombreuses généralisations dont, jusquà présent, on ne pouvait avoir connaissance que par des moyens intuitifs. Cependant, dès quon tente dexposer une typologie de difficultés langagières à lintelligence artificielle, lun des enjeux essentiels de lexigence de catégorisation, cest bien la formalisation de limmense répertoire doccurences caractérisées par labsence de règle. Tel est le cas, dans une proportion considérable, de lusage des prépositions vides et, par extension, de la logique de leur transcription plurilingue. La tâche implique la construction dun système de représentation
qui doit savérer apte à rallier, en les rendant le
moins sensibles possible pour lutilisateur final, et le plus explicites
quil soit permis pour son appréhension par les routines informatiques,
les trois axes heuristiques en présence : celui dune grammaire
déductive conventionnelle, celui dune grammaire inductive
confectionnée ad hoc et celui de lanalyse contrastive. À
cette complexité, il faudrait ajouter celle de la catégorisation
de cas qui se distinguent par une idiosyncrasie multiforme, puisquils
peuvent tenir, alternativement ou simultanément, du domaine syntaxique,
morphologique ou sémantique ou, tout simplement, ne tenir daucun
domaine. |
Fragen und Kommentare / Questions and Comments / Questions et commentaires
/
Domande e Commenti / Preguntas y Comentarios zuletzt aktualisiert / last updated / Dernière mise à jour / ultima attualizzazione / última revisión |