Littera Deusto

Modern Languages, Basque Studies and Humanities

IULA ( Instituto Universitario de Lingüística Aplicada)

junio 22nd, 2009 · No hay Comentarios

   El proyecto Corpus es el proyecto de investigación prioritario del IULA. Recopila textos escritos en cinco lenguas diferentes (catalán, castellano, inglés, francés y alemán) de las áreas de especialidad de la economía, el derecho, el medio ambiente, la medicina y la informática. A través del establecimiento del corpus, se intentan inferir las leyes que rigen el comportamiento de cada lengua en cada área. Este corpus es el soporte principal de las actividades de investigación y docencia de nuestro instituto. 

Las investigaciones previstas sobre el corpus son las siguientes: detección de neologismos y términos, estudios sobre variación lingüística, análisis sintáctico parcial, alineación de textos, extracción de datos para la enseñanza de segundas lenguas, extracción de datos para la construcción de diccionarios electrónicos, elaboración de tesaurus, etc. 

Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas (Derecho, Economía, Medio ambiente, Medicina e Informática). Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el “Corpus Encoding Standard (CES) de la iniciativa EAGLES. (Estado actual)

El procesamiento de los textos del corpus sigue los siguientes pasos: 

  • marcaje estructural
  • preproceso (detección de fechas, números, locuciones, nombres propios…) 
  • análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintácticos diseñados en el IULA
  • desambiguación lingüística y/o estadística
  • almacenamiento en una base de datos textual

Etiquetas:

  • Etiquetas