ind_langue.gif INDUSTRIAS DE LA LENGUA
Las lenguas de España y la ingeniería lingüística

proyecto
ANÁLISIS LÉXICO Y SINTÁCTICO AUTOMÁTICOS
DE LA LENGUA ESPAÑOLA

Contando con la ayuda financiera del Ministerio de Educación y Ciencia de España, el investigador Carlos Subirats Rüggeberg lleva a cabo este proyecto desde 1996, en el Laboratorio de Lingüística Informática (LaLI) de la Universidad Autónoma de Barcelona.

El proyecto está centrado en el desarrollo de aplicaciones destinadas al tratamiento automático de la información textual y a la extracción automática de información de grandes corpus en lengua española, partiendo de la utilización de bases de conocimiento léxico y sintáctico.

La base de conocimiento léxico (BCL) consta de un diccionario electrónico de 600.000 entradas, que integra todas las formas posibles pertenecientes al léxico general de la lengua española. La BCL aumenta automáticamente a partir de un diccionario de formas canónicas, cada una de las cuales va acompañada de un conjunto de códigos y especificaciones léxicas. El primer proceso al que se someten es la etiquetado y su resultado se formaliza en un autómata que se puede visualizar mediante una aplicación gráfica.

Subirats desarrolla al mismo tiempo una base de conocimiento sintáctico (BCS) que es una representación en forma de transductores de las propiedades de dependencia y de las propiedades transformacionales de los predicados del léxico español. Su objetivo es formalizar las características sintácticas de las construcciones que permiten vehicular la información en español y, a su vez, desarrollar una base de conocimiento que permita mejorar el proceso de extracción automático de la información textual.

Laboratorio de Lingüística Informática, Universidad Autónoma de Barcelona, Facultad de Letras, Edificio B, 08193 Bellaterra, España. Tel.: (34.93) 581.16.86. Fax: (34.93) 581.22.29. Sitio web: http://cc.uab.es/~ilfe1/estado.