1- Epea:
1990-2002 (biak barne)
2- Eremuak:
* Zientzia zehatzak
* Materiaren eta energiaren zientziak
* Lurraren zientziak
* Biziaren zientziak
* Teknologia
* Orokorra
* Bestelakoak
3- Generoak:
* Oinarrizko hezkuntzako materiala
* Goi-mailako liburua
* Artikulu espezializatua
*Dibulgazio-artikulua
*Dibulgazio-liburua
*Administrazio publikoko dokumentua
4- Egitura-etiketatzea:
* TEI P4 (XML)
* Automatikoa: testuaren egitura-ezaugarriak (atalburuak,
atalak, azpiatalak, paragrafoak, zerrendak, taulak, oin-oharrak,
irudi-oinak, eta abar.); nabarmentze-ezaugarriak (tipografikoak,
hau da, letra-estiloa eta komatxo edo kakotxak)
* Eskuz landua (gune orekatuko laginak): nabarmentze-
ezaugarrien balioa (enfasia, aipua, atzerri-hitza, ohiz kanpoko
adiera edo erabilera ironikoa, metahizkuntza, terminoa, izen
berezia…)
5-Aurreprozesamendu linguistikoa (gune orekatuko laginak):
* Corpusaren lexikoi osagarria elikatzea (EDBLn eta Elhuyar
Hiztegian ez dauden eta corpusean atzeman diren maiztasun
handiko lema espezializatuak)
* Aldaeren normalizazioa (<reg>
etiketa)
* Akats ortotipografikoen zuzenketa (<corr>
etiketa)
6- Etiketatze linguistikoa:
* Erabilitako baliabide lexikalak.
* Automatikoa
* Eskuz landua
7- Tamaina:
* Guztira: 8,5 milioi hitz (8.529.505)
* Automatikoki landuak: 6,6 milioi hitz (6.634.573)
* Automatikoki landuak eta gero eskuz berrikusiak eta
zuzenduak: 1,9 milioi hitz (1.894.932)
8- Lema-kopurua:
* Guztira: 149.793
* Eskuz egiaztatuak: 78.637
BIBLIOGRAFIA:
* http://www.ztcorpusa.net/aurkezpena.htm