Littera Deusto

Modern Languages, Basque Studies and Humanities

ZIENTZIA ETA TEKNOLOGIAREN CORPUSAREN EZAUGARRI NAGUSIAK

abril 23rd, 2009 · No hay Comentarios

1- Epea:
1990-2002 (biak barne)
 
2- Eremuak:
* Zientzia zehatzak
* Materiaren eta energiaren zientziak
* Lurraren zientziak
* Biziaren zientziak
* Teknologia
* Orokorra
* Bestelakoak
 
3- Generoak:
* Oinarrizko hezkuntzako materiala
* Goi-mailako liburua
* Artikulu espezializatua
 *Dibulgazio-artikulua
 *Dibulgazio-liburua
 *Administrazio publikoko dokumentua
 
4- Egitura-etiketatzea:
* TEI P4 (XML)
* Automatikoa: testuaren egitura-ezaugarriak (atalburuak,  
atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak,
irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak,
hau da, letra-estiloa eta komatxo edo kakotxak)
* Eskuz landua (gune orekatuko laginak): nabarmentze-
ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko
adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen
berezia…)
 
5-Aurreprozesamendu linguistikoa (gune orekatuko laginak):
* Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar
   Hiztegian ez dauden eta corpusean atzeman diren maiztasun
   handiko lema espezializatuak)
* Aldaeren normalizazioa (<reg> etiketa)
* Akats ortotipografikoen zuzenketa (<corr> etiketa)
 
6- Etiketatze linguistikoa:
              * Erabilitako baliabide lexikalak.
              * Automatikoa
              *  Eskuz landua
7- Tamaina:
* Guztira: 8,5 milioi hitz (8.529.505)
* Automatikoki landuak: 6,6 milioi hitz (6.634.573)
* Automatikoki landuak eta gero eskuz berrikusiak eta
zuzenduak: 1,9 milioi hitz (1.894.932)
 
8- Lema-kopurua:
* Guztira: 149.793
* Eskuz egiaztatuak: 78.637

 

BIBLIOGRAFIA:

* http://www.ztcorpusa.net/aurkezpena.htm

Etiquetas:

  • Etiquetas