Si buscamosla palabra “corpus” como tal en un diccionario como “El Larousse”, encontraremos como significado “recopilación de materiales, datos, etc,…sobre una materia” o “fiesta religiosa”.
Sin embargo muchos de nosotros todavia no sabemos que este término tambien se utiliza para nombrar a un conjunto de textos almacenados en formato electrónico o html y utilizados para estudiar una lengua o una variedad lingüística mediante el empleo de las modernas tecnologías de la información.
Los corpus tienen que ser creados para poder ser utilizados en el medio informático. Primero tienen que ser analizados para que tras este análisis se pueda relacionar una palabra mediante una entrada y tras esto deben ser etiquetados, es decir, se tiene que tomar la categoria y los rasgos sintácticos significativos de cada palabra.
Hay dos tipos de corpus:
-Corpus textuales: Estos se clasifican según la razón por la que han sido creados y segun su contenido.
-Corpus de la lengua general con fines generales, como son ( CREA), ( CORDE), ( ARTHUS), ETC…; estos pretenden dar respuesta a un proposito con creto como puede ser el estudio de ciertos aspectos de la gramática o el léxico de la lengua o incluso de las diversas variedades linguisticas.
Los fines específicos del corpus son los creados para que se utilicen en textos técnicos, son elaborados por empresas. Un ejemplo de ellos es el llamado “LAN”.
– Corpus orales:se clasifican en dos categorias: corpus para el estudiao de la lengua oral y corpus para el desarrollo de aplicaciones en tecnologias del habla.
El corpus utilizado para el estudio de la lengua oral tiene como fin caracterizar desde un punto de vista linguistico la lengua hablada, aqui encontramos los corpus generales y los especificos.
-El corpus utilizado para el desarrollo de aplicaciones en la tecnologia del habla tiene como objetivo desarrollar aplicaciones para el entrenamiento y evaluación de los sistemas de reconocimiento.
Utilizando todos estos mecanismos creados en 1967 por Nelson Francis y Henry Kucera , podemos estudiar la lengua y todas sus variedades. El lingüísta que más ha utilizado esta técnica fue Chomski y desde entonces hasta nuestros dias esta técnica ha seguido siendo utilizada por la mayor parte de los lingüístas.
En conclusión, la linguística del corpus ha sido y sigue siendo utilizada para intentar analizar e identificar las estructuras y los rasgos linguísticos de cada idioma.Para ello se emplean analisis cuantitativos y cualitativos, en estos analisis se bucan:
las concordancias, las categorias gramaticales, los rasgos linguisticos de cada categoria:adverbios, vervos, pronombres, adjetivos, sustantivos.. tras el analisis exaustivo de todos estos rasgos se procede en segundo lugar a desarrollar un programa que identifique cada rasgo y que tras ello realice agrupamientos de los rasgos linguisticos.
Los ordenadores e Internet han sido lo suficientemente inteligentes como para poder archivar numerosos textos electronicos, descargados de la Web y elaborar un corpur de los mismos.
Hoy en día, con las herramientas que están dentro de nuestro sistema operativo cualquier persona puede crear corpus lingüísticos.
href=”http://sircana.files.wordpress.com/2011/04/piramide_traducciones.png”>
BIBLIOGRAFIA:
- LINGüISTICA, http://aportes.educ.ar/lengua/nucleo-teorico/influencia-de-las-tic/tecnologias-de-la-informacion-y-la-comunicacion-tic-y-lingueistica/lingueistica_de_corpus.php, 2010
- Conrad, S. y D. Biber (eds.) (2001) Variation in English: Multi-dimensional studies. London: Longman.
- Biber, D., S. Conrad y R. Reppen (1998) Corpus Linguistics: Investigating Language Structure and Use. Cambridge: Cambridge University Press.
- Kennedy, Graeme (1998) An Introduction of Corpus Linguistics. London: Longman.
- Mc Carthy, M. (1998) Spoken Language & Applied Linguistics. Cambridge: Cambridge University Press.
- Stubbs, M. (1996) Text and Corpus Analysis. Computer assisted Studies of Language and Culture. Oxford: Blackwell Publishers.
- Corpus lingüisticos, http://lorien.die.upm.es/juancho/pfcs/AJP/cap4.pdf