Concha Sanz Miguel
|
En la presente ponencia, se describe el proceso de digitalización de un diccionario de equivalencias preposicionales dirigido al aprendizaje del francés para hispanófonos. La versión inicial del trabajo está editada en formato impreso (El Libro de las Preposiciones, ed. Azacanes, Toledo, 1999) y también se encuentra en un procesador de textos. Contiene un corpus de dominio general extraído de entre producciones escritas y orales de lenguaje aleatorio y los segmentos del corpus corresponden generalmente a frases. El corpus, que se utiliza para la ejemplificación de casos, recoge la casuística que afecta específicamente a las preposiciones llamadas vacías (que no encierran un contenido semántico intrínseco o estable) cuya previsibilidad de uso es nula o muy remota. Estas preposiciones se utilizan de manera muy dispar en español y en francés, ubicándose la dificultad para el hablante en la misma medida en el intento de establecer equivalencias del español al francés como vice versa. El hecho de que desde un principio la versión impresa estuviera orientada a un público hispanófono motivó que la totalidad de los segmentos, incluso los destinados a establecer las equivalencias español-francés, se seleccionaran en francés. Las unidades de traducción (UT) del corpus (los ejemplos emparejados), se encuentran anotadas para hacer visibles para el usuario las unidades lingüísticas (ULs) pertinentes. Las ocurrencias son las palabras o cadenas de palabras que son objeto de tratamiento y las ULs son las ocurrencias que el sistema reconoce como válidas. En la versión del procesador de textos, existen más de 10 000 etiquetas asociadas a las ULs tratadas y al conocimiento lingüístico que genera cada caso. Las etiquetas hacen posible la indización múltiple, la lematización de las ocurrencias del corpus a efectos de indización automática, así como las referencias cruzadas entre ULs y comentarios. Si bien la localización de las anotaciones puede ser recuperada para el tratamiento electrónico, no ocurre lo mismo con las etiquetas. El índice de materias constituye de hecho una taxonomía de dificultades. El principal problema para la reutilización de ese conocimiento en un lexicón automático radica en que la macroestructura que resulta de la exégesis (análisis exhaustivo sobre corpus) desarrolla una lógica lineal que sólo resulta apropiada para usuarios humanos. Nada tiene que ver esa modalidad de presentación con la distribución arbórea que requiere la organización ontológica que estamos implementando con fines computacionales. La versión electrónica, que recoge 3 000 casos, tiene una doble finalidad:
A semejanza de la versión fuente, la herramienta que se crea permitirá al usuario, eligiendo la lengua de entrada, moverse por la estructura del diccionario alfabética y conceptualmente, es decir recorriendo el léxico bilingüe o recorriendo el conocimiento asociado a ese léxico. También conservará esta versión la opción de referencias cruzadas del diccionario de papel a modo de remisiones internas. Si el usuario opta por la búsqueda alfabética, podrá acceder a las entradas a través de las letras del alfabeto o escribiendo una palabra o cadena de palabras. Para esta opción, se implementan herramientas específicas de análisis y generación textual. La primera tarea que exige la implementación de una versión electrónica consiste en la extracción de la información de la versión inicial. El proceso de extracción debe ir acompañado de una previsión exhaustiva de las herramientas de volcado de la información léxica y descriptiva a una base de datos específica. La labor conlleva un esfuerzo de adaptación del conocimiento descriptivo del diccionario fuente a la lógica computacional. Esta operación implica la desambigüación manual del vocabulario de origen, con miras a convertirlo en rutinas terminológicas con la consistencia necesaria para construir un sistema de representación formal que sirva de guía viable para su utilización por otras aplicaciones. El lexicón computacional es el depósito de toda la información lingüística detallada y sus especificaciones. La representación de esa información requiere la creación o la adopción de formalismos. El esquema conceptual que articula el lexicón es monolingüe y sirve de soporte integrador para definir tanto el formalismo interno, o de máquina, como el externo, o de usuario, sentando las bases para la correcta interacción humano-máquina y máquina-máquina, y asegurando su utilidad para una pluralidad de tareas. Al no existir todavía convenciones terminológicas, ni siquiera un consenso tácito entre lingüistas, psicolingüistas, lingüistas computacionales e ingenieros sobre el modo general en que este tipo de información debe ser representada, en una primera etapa hemos desarrollado nuestro propio formalismo siguiendo un modelado neutral con el fin de cotejar sus posibilidades de asimilación con el de sistemas ya implementados. Con ello, buscamos la conectividad con otras aplicaciones de ingeniería lingüística, convencidos de que la viabilidad de las aplicaciones de procesamiento de lenguaje natural (PLN) depende de su nivel de estandarización. Otra de las características con las que pretendemos dotar nuestra aplicación es la independencia de su ontología de las lenguas de referencia. Siendo el español y el francés dos lenguas románicas, la ausencia de distinción en el discurso formal resulta especialmente provechosa al permitir que una arquitectura semántica única pueda servir para caracterizar todas las ULs tanto en la fase de análisis (INPUT) como en la fase de generación (OUTPUT). En este trabajo, en coherencia con las tendencias actuales de la lexicografía del corpus, se ha desarrollado una observación fina sin precedentes del comportamiento real del fenómeno preposicional en francés contemplado desde el prisma del hispanoparlante. El intenso trabajo de campo realizado ha puesto de manifiesto la existencia de numerosas generalizaciones de las que, hasta la fecha, sólo se podía tener conocimiento por medios intuitivos. Sin embargo, cuando uno se propone someter a la inteligencia computacional una tipología de dificultades lingüísticas en un campo dado, uno de los grandes retos con los que se enfrenta en su afán de categorización, es la formalización de la inmensa casuística afectada por la ausencia de reglas como la que atañe, en una proporción considerable, al uso de las preposiciones vacías y, por extensión, a la lógica de su transcripción plurilingüe. La tarea presupone, en este caso, la construcción de un sistema
de representación que sea capaz de entrelazar, haciéndolas
lo menos sensibles posible para el usuario final, y lo más explícitos
posible para su aprehensión eficaz por las rutinas informáticas,
los tres ejes heurísticos en presencia: el de una gramática
deductiva convencional, el de una gramática inductiva elaborada
ad hoc y el del análisis contrastivo. Complicación a la
que hay que sumar la que se deriva de la categorización de casos
caracterizados por una idiosincrasia multiforme, ya que pueden pertenecer,
alternativa o simultáneamente, al dominio sintáctico, morfológico,
semántico o no pertenecer a ninguno de ellos. |
Fragen und Kommentare / Questions and Comments / Questions et commentaires
/
Domande e Commenti / Preguntas y Comentarios zuletzt aktualisiert / last updated / Dernière mise à jour / ultima attualizzazione / última revisión |