Littera Deusto

Modern Languages, Basque Studies and Humanities

CORPUSAK

abril 29th, 2009 · No hay Comentarios

Euskarako corpusak arakatzen ari nintzela, hara nun topa dodan CorpEus . Egia esan, ez da aparteko corpusa; izan ere, gabe aztergai dugun parasufijoa sartu dot eta ez da erantzun interesgarririk azaldu, edo ez behintzat espero nebana. Dana dala, gabe partikula honi buruzko informazioa ez da oso oparoa. Beraz, lana badogu informazioa bildueta aztertzeko.

Corpus honen barri izateak eragindako jakinmiñak asetzeko,  hona hemen azalpen txiki eta orokor bat:

H233-035-04

CorpEus internet euskarazko corpus gisa kontsultak egiteko eta ustiatzeko tresna dugu. Internet corpus erraldoia izanik, euskaraz dagoen edozein corpus baino askoz handiagoada. Etengabe ari da eguneratzen eta eduki aldetik  handitzen.

Hau dala eta, hitz berrienak ere kontsulta daitezke. Badira zenbait tresna hitzak bilatu eta jatorrizko testuinguruetan agertzen diranak: WebCorpWebConc. Tamalez, euskarazko corpus-bilaketak egiteko tresnon errendimendua oso txikia edo hutsa da. Elhuyarrek aukera hori emoten dosku CorpEus-en bidez. corpus hau I+G+B taldeak garatu dau, EHUko IXA Taldearen laguntzagaz. Honeek dira, besteak beste, eaugarri nagusiak:

  • Bilaketa lematizatua dau
  • Euskarazko emaitzak bakarrik agertzen dira
  • Anbiguotasunen, hitz ezezagunen, aldaeren eta zuzenketen tratamendua dau

 

(WAC3 – Web as Corpus wokshop-ean (Louvain-la-Neuve, Belgika, 2007/09/15-16) aurkeztua)

Etiquetas:

  • Etiquetas