Littera Deusto

Modern Languages, Basque Studies and Humanities

UZEI- XX. mendeko euskararen corpus estatistikoa

mayo 2nd, 2011 · No hay Comentarios

SARRERA

Corpus bat, egituratutako testu sorta handi bat da hizkuntzalaritzan. Hizkuntza baten deskribatzeko eta ikertzeko baliatzen den hizkuntza-datu bilduma da, edo baliabide elektronikoak erabiltzen eta eskaintzen dituena.

  • Corpusa bilduma berezi bat da.
  • Latinetik datorren hitza da. Latinez gorputza esan nahi du.
  • Datu ala testu literarioak, edo zientifikoak, konposatua.
  • Zenbat eta zabal eta txukunago egin hainbat eta hobeto ikerketa batentzat baliagarria izateko.

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da. Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

SAILKAPEN-IRIZPIDEAK

  • Epea, garaia:lau garai nagusitan banatzen dira XX. mendeko argitalpenak:
    • 1900-1939: mende-hasieratik gerrak artekoa.
    • 1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
    • 1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegiaargitaratu artekoa).
    • 1991-1999: araugintza berriaren ondokoa.
  • Euskalkia:
    • Bizkaiera
    • Gipuzkera
    • Zuberera
    • Lapurtera-Nafarrera: biak bakarrean bilduta
    • Euskara batua
    • Sailkatu gabeak: atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.
  • Testu-mota:
    • Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakinbezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.
    • Administrazio-idazkiak
    • Ikasliburuak
    • Saio-liburuak
    • Literatura-prosa
    • Poesia
    • Antzerkia
    • Bertsoak
    • Ikerketa-lanak
    • Haur- eta gazte-literatura
    • Ahozkoak: ahozko jardunen transkripzioak
    • Liturgia
    • Egunkariak
    • Aldizkariak

Sailkapen hauek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan.

101.585 lema desberdin aurkituko ditu erabiltzaileak bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

ERABILERA

Edozein kontsulta egiteko, pantailaren ezkerreko aldean lema zein testu-hitza idatzi eta, dagokiona aukeratuta, hauen zerrenda eta forma bakoitzaren agerraldi-kopurua azaltzen dira.

Trunkatzeko, bi karaktere erabil ditzakegu, % hitzaren edozein posiziotan ezar daiteke, idatzitakoaren aurreko, tarteko zein atzeko edozein osagai zerrendaratzeko:

1. Aukera: hartu%

  aditz soilaz gain, horren eratorri guztiak ikusiko ditugu:

 

 Testuetan zer erabili den ikusi nahi bada edo formarik erabiliena zein den jakin nahi badugu ere balia dezakegu aukera hau, % karakterearekin konbinatuz gainera: o_ar%raz% testu-hitza idatzi eta hau lortuko dugu:

 Zerrenda lortutakoan, horrela, lema edo testu-hitz bakoitzaren agerraldi-kopurua ikusiko dugu eta, zenbaki horretan klik eginda, forma horren erabilera-esparruen hainbat datu adierazgarri eskuratuko ditugu: 

 

 Datuok ikusi ondoren, bi kontsulta-modu egin ditzakegu:

1. Kontsulta Arrunta

 

  •  Hitz bat: forma bakarra idatzi eta Bilatu botoia sakatu.
  • ETA: forma bat baino gehiago galdetu, koma bidez banatuak (zuriunerik ez komaren ondoren), ETA botoia sakatu eta gero Bilatu-ri eman.
  • Tartean: Forma horiek elkarren segidan edo bien artean gehienez hainbat hitz dituztela idatziak egotea eska ditzakegu: ETAren ordez Tartean aukeratuko dugu eta forma bien tartean egon daitezkeen hitzen kopurua zehaztuko.
  • EDO: idatzitako formetako batek behintzat azaldu behar du bilaketaren emaitzan. Hemen ere koma bidez banatuko ditugu lemak edo testu-hitzak.
  • Hasieran: idatzi dugun formak (edo lehen formak, bat baino gehiago direnean) paragrafoaren lehen hitza izan behar du.
  • Bukaeran: idatzi dugun formak (edo lehen formak, bat baino gehiago direnean) paragrafoaren azken hitza izan behar du.

Emaitzak honela agertuko zaizkigu:

Autorearen edo/eta idazlanaren erreferentzia laburtuan klik eginez, erreferentzia bibliografiko zabalagoa ikusiko dugu: autorea, obraren izenburua (gehi aldizkaria, artikulu bat denean) eta urtea.

Orrialde-zenbakian klik eginez, berriz, orrialde osoa ikusteko aukera izango dugu:

2. Kontsulta Aurreratua

Bilaketa konplexuagoak egiteko aukera ere bada. Gramatikari dagozkion galderak bideratzeko edo lema batek biltzen dituen aldaeren berri izateko modua eskaintzen du kontsulta-modu honek. Esate baterako: lemak eta testu-hitzak batera galde daitezke, bakoitzean nahi beste murriztapen ezarrita.

 

 

ESTEKAK

UZEI, http://www.uzei.com/home.asp?sesion=14

EUSKALTZAINDIA, http://www.euskaltzaindia.net/

Euskaltzaindia, wikipedia entziklopedia askea, (2011,05,02), http://eu.wikipedia.org/wiki/Euskaltzaindia

EUSKARA CORPUSA, http://www.euskaracorpusa.net/

EHU, http://www.ehu.es/

Etiquetas:

  • Etiquetas