Littera Deusto

Modern Languages, Basque Studies and Humanities

ZIENTZIA ETA TEKNOLOGIAREN CORPUSA

abril 23rd, 2009 · No hay Comentarios

Zientzia eta Teknologiaren Corpusa, edo ZT corpusa, zientzia eta teknologiaren alorreko euskarazko testu-bilduma egituratu eta etiketatua da, eta alor horietako euskararen erabilera ikertzeko baliabidea izatea du helburu nagusia. Corpus berezi edo espezializatua da, eta UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu dute.

Corpusaren osaera dela eta, 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak hartu dira kontuan corpusa elikatzeko. Corpus sailkatua da, eremuaren (jakintza-alorraren) eta generoaren (testu-motaren) arabera.

Corpus etiketatua da, bai testuaren egiturari eta formatuari dagokionez, bai linguistikoki. Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili da (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusaren lehen bertsio honetan, 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu dira.

Corpusa XMLn etiketatuta dago, eta TEI estandarrari jarraitu diote.

Eskuz landutako testuak ez dira nolanahi hautatu. Izan ere, interneten aurkezten den bertsioa proiektu zabal baten parte da, eta corpus-proiektu hori bi atalez osatua dago:

* Zientzia eta teknologiaren alorreko euskarazko testugintzaren adierazgarria izateko asmoz diseinatu den gune orekatua.
* Eskuragarritasunaren arabera corpuseratzen diren obrez edo obra-zatiez osatutako atal irekia.

 

BIBLIOGRAFIA:

* http://www.ztcorpusa.net/aurkezpena.htm

Etiquetas:

  • Etiquetas