Littera Deusto

Modern Languages, Basque Studies and Humanities

Corpusaren azterketa

abril 11th, 2011 · No hay Comentarios

 

Sarrera
Orotariko Euskal Hiztegiak gure tradizioko idazle ereduzkoen ondarea jasotzen du, hiztegiaren nahiz gramatikaren aldetik. Baina gaur egun euskararen normalizazioak dituen premiei erantzuteko, eta ondare horren osagarri, nahitaezkoa da egungo idazle ereduzkoen idazlanen bilketa egitea.

Bada korpus bat, XX. mendeko Euskararen Korpus Estatistikoa izenekoa (lehen “Egungo Euskararen Bilketa-lan Sistematikoa” deitua), euskarazko produkzioaren erakusgarri bat urtero jasotzen duena. Baina bilketa hori estatistikoa da, eta berdin jasotzen ditu idazle “onen” nahiz “ez hain onen” testuak. Nahiz bilketa estatistikoak beharrezkoak diren hizkuntzaren zenbait alderdi aztertzeko, dudarik gabeko kontua da mundu guztian hizkuntza ereduak ereduzko idazleen azterketatik eratortzen direla. Hortaz, guk ere kalitatea kontuan hartzen duen korpusa aztertzea erabaki dugu.

Guk aukeratutako korpusean testu jakin bat “eredugarritzat” jotzeko erabili diren irizpideak oso zabalak dira: prestigio nabarmeneko sariak, lexiko-sorkuntzaren aldetik eta literatura-balioaren aldetik interesgarriak diren liburuak, salmenten arabera arrakasta nabarmena izan dutenak…Gainera, 2000. urtea hartu da biltze-lanaren abiatze-puntutzat, izan ere, urte horretan Hiztegi Batuaren lehen argitalpenarekin euskara estandarraren nolakotasuna bideratu zen. Hortaz, korpusa 2000 urtetik aurrerako testu eredugarriez osatzen da.

Hasieran 2000, 2001 eta 2002 urteetako testuez osatu zen eta batez ere literatur testuak erabili ziren, jatorrizkoak nahiz itzulpenak baina guk zenbait urte pasatu eta gero aztertzerakoan, proiektu hau behategi moduko bat bihurtu dela uste dugu, urtez urte euskal idazketaren bilakabidearen berri ematen baitu gure ustetan.

Corpusaren zenbait datu orokor aurkitu ditugu hurrengo lerroetan aurkezten direnak. Hala ere, aipatu behar dugu azken eguneratzea 2009koa dela, beraz, azken bi urteetako materiala falta da. Datuak ondorengoak dira:

Denera: 25,1 milioi hitz

Liburuak

13,1 milioi hitz

2000-2006 bitarteko 287 liburu

Prentsa

12 milioi hitz

2004-2006 bitarteko Berria egunkaria (10 milioi hitz)

2001-2005 bitarteko Herria astekaria (2 milioi hitz)

Beraz, eta laburbilduz, Ereduzko Prosa Gaur ekimenean gaur egungo hainbat idazle ereduzkoren azken urteotako testuak bildu dira, horiekin korpus aski zabal bat eratuz. Korpus horri etekinik onena ateratzeko aztergailu ahaltsu eta erabilterraz bat erantsi zaio. Gauzak horrela, tresna egokia da gaurko euskal autore eredugarriek euskaraz idazterakoan guztioi sortzen zaizkigun duda-mudei eman dizkieten irtenbideak ezagutzeko.

Azterketarekin hasi aurretik aipatu behar dugun azkeneko datua proiektu honen atzean dauden pertsonei dagokie. Egitasmo hau EHUko Euskara Zerbitzuaren proiektuen barruan kokatzen da eta arduraduna Ibon Sarasola da, berak egiten batitu proiektuaren antolatze, garatze eta zuzentze lanak. Laguntzaileak Xabier Alberdi, Jesus Mari Makazaga, Iñaki Ugarteburu eta Juan Garzia dira eta proiektuaren babesle Donostiako Udala da, Euskararen Udal Patronatuaren bidez. Era berean, aipatu behar dugu “kontsultako interfaze zaharra” aukera hartu dugula bertsio berrian egin ezin diren zenbait aukera egiteko aukera ematen digulako.

Bilaketarako Lagungarri

corpusa murriztu

Corpusa murriztu

Euskal Herriko Unibertsitateak eskaintzen duen zerbitzu honetan bilaketak egiten hasteko, lehendabizi, bilaketarako corpusa definitu behar dugu. Horretarako, Corpusa murriztu botoia klikatuz agertuko zaigun menua erabiliko dugu.Menu honetan, nahi adina obra aukeratu daitezke, ezkerretara aurkitzen dugun laukitxoan klik eginez. Guztiak aukeratu nahi izanez gero, Osoa botoia klikatu beharko genuke. Aukera egin eta gero, Ezarri eta Itxi botoiak sakatu beharko ditugu.

Bigarrenik, lortu nahi dugun emaitza nola bistaratu aukeratuko dugu. Emaitza osoa bistaratu aukera aktibatzen badugu, zuzenean, bilatutako hitzen agerpenak ikusi ahal izango ditugu. Aukeratzen ez badugu berriz, obra bakoitzeko zenbat agerpen dagoen ikusiko dugu. Bestalde, emaitza osoak bistaratzen ditugunean, bilatutako forma azpimarratuta agertuko zaigu. Bertan klik eginez, formari buruzko informazioa aurkituko dugu (izan ditzakeen kategoriak, etab.) Obren izenburuetan klikatzen badugu berriz, jaso ditugun emaitzak beste leiho batean ikusi ahal izango ditugu.

Behin hauek guztiak erabakita ditugula, prest gaude nahi dugun forma idazteko. Honetarako eskaintzen zaigun kutxan, letrez aparte,karaktereak ere erabili ditzakegu (, ? #). Honela, ikurra erabiltzen badugu, edozein karaktere edo karaktere segida definitzen ariko gara.

Adibidez, *tasun lema bilatzen badugu, askatasun, maiztasun, aberastasun, larritasun, etab. aurkitu ahal izango ditugu. ? ikurra erabiltzen badugu aldiz, edozein karaktere (baino bat bakarra) definitzen ariko gara eta azkenik # ikurra zenbakiak adierazteko erabili ahal izango dugu.

Erabiltzeko zenbait argibide

Ereduzko Prosa Gaur orrialdean, “Corpus arakatzailea” aukeratu eta zenbait hitzen bilaketa egin dugu. Ondoren

liburuetan/prentsan

liburuetan/prentsan

adibide hauen berri emango dugu.

1- Ezker aldean bilatu nahi dugun hitza edo lema idatziko dugu.

Aukeran izango dugu, bilaketa era zehartzago baten bidera dadin, liburuak edota prentsak barne hartzen duen korpusa.

“Haize” hitza idatzita, ondoko datuak agerrtuko zaizkigu:

Emaitza 2165 agerraldi / 2093 esaldi

Liburuak 1500 / 226 liburu

Prentsan 593 esaldi / 457 artikulu

     
bilaketaren emaitzak

emaitzen hurrenkera

Ondoren, emaitzen kopuruaren araberako lista bat agertzen zaigu. Goiko partean, agertzen diren ataleko izenak datoz (kirolak, kultura, Euskal Herria etab) eta beheko partean, liburuka agertzen dira emaitzak. Liburuen araberako sailkapenean, ezkerraldean liburuaren  izenburua eta egilearen izena agertzen dira eta eskuinean, aurkitutako hitz kopurua eta hauek dautzan esaldi kopurua agertuko zaizkigu, gehienetik gutxienengorako sailkapenean.

Behin liburua aukeratuta, hitza kolorez nabarmendurik ageriko da zenbakiz dieraziriko orrialdearen esaldi barruan.

Esan dugu “haize” izena bilatzen hasi garela. Hainbat idazleren artean Joan Mari Irigoienen Lur bat haratago aukeratzean ondoko emaitzak agertuko zaizkigu:

1. Orr.: 33

barrenean animalien spiritu-en airea edo haize mehea gordetzen duten,

2. Orr.: 93

gauzak gehiegi ez lotzearen aldekoa, airearekin aire eta haizearekin haize, eta zeren halakoak ere izan

3. Orr.: 110

gure mundu ilun eta zurrun hartan haize freskoaren antzera, nola sartu baitzen ene belarri-zuloetarik umetako asmakizun hura, osabari aditua, zeinak baitzioen:

4. Orr.: 120

Eta Pedroren hitzak eta Pedroren erabakia haize-bildu bat bezala sartu zitzaizkidaan, ustekabean, bihotzean, halako tailuz, non zainetako su tipia su handi bihurtu, eta suak arras hartu baininduen.

Liburuen emaitzak

Beste hainbeste orrialdeetan agertzen da hitza, eta ezkerreko irudian  ikus daitezke kasu hauek denak (ez ditugu azalpenean denak gehitu luzeegi eta astunegia gertutako zelakoan).

Korpus Arakatzailearen Bilaketa Motak
Bilaketa Arrunta
Kontsultatu nahi dugun hitza edo lema idatzi beharko dugu aurkezten zaigun kutxan. Hitza aukeratzen badugu, idazten duguna bere horretan bakarrik bilatzen ariko gara. Bestela, lema aukeratzen badugu, izan dezakeen edozein formatan aurkitu ahal izango dugu idazten duguna.

• Adibideak

Eskaintzen zaigun kutxan “etxe” hitza idazten badugu eta Bilatu botoia sakatzen badugu, Fantasiazko ipuinak obran adibidez, “68 hitz / 66 esaldi” emaitza lortuko dugu. Honek esan nahi du, aipatutako liburuaren 66 esalditan agertzen dela bilatzen ari garen hitza eta, era berean, esaldiren batean gure hitza behin baino gehiagotan azaltzen dela.

Adibidea: etxe hitza (Gainean sakatzen baduzu, zabalduko zaizun orrialdean, aztergailua erabiltzeko pausu guztiak banan-banan ikusiko dituzu) Bestalde, “etxe” lema bilatzen badugu, lehen aipatutako corpus berean “239 hitz / 232 esaldi” emaitza lortuko dugu. Non dago aldea? Oraingoan adibideei begiratzen badiegu, honako formak aurkituko ditugu: etxean, etxera, etxetik, etxe, etxerantz, etab.

Adibidea: etxe lema (Gainean sakatzen baduzu, zabalduko zaizun orrialdean, aztergailua erabiltzeko pausu guztiak banan-banan ikusiko dituzu)

Bilaketa Aurreratua
Bilaketa aurreratuen kasuan aukera gehiago eskaintzen zaizkigu. Bilaketa arruntetan bezala, hitz bat idatziko dugu kutxan. Gogoan izan, bilaketa aurreratuak egiteko, Lema bilatu beharko dugula eta ez hitza. Ondoren, Morfologia botoian klikatuta, leiho berri bat irekiko zaigu Leiho honetan, hainbat ezaugarri morfologiko zehaztu ditzakegu: bilatzen ari garen hitzaren kategoria, aditz-mota, atzizki edo aurrizkiak, deklinabide zehatz batekin, edota numeroa (singularra, plurala, mugagabea…) Leiho honetan eskaintzen zaizkigun aukerak erabilita, gure bilaketek emaitza zehatzagoak izango dituzte. Beti ere, nahi dugun aukera egindakoan, Ezarri eta Itxi botoiak sakatu behako ditugu.

• Adibideak

Demagun “gizon” Lemaren agerpenak aurkitu nahi ditugula pluralez eta NORI kasua dutenean. Morfologiako botoia sakatu eta agertuko zaigun leihotxoan Deklinabidean NORI eta Numeroan Plurala aukeratuko dugu. Ondoren, Ezarri eta Itxi botoiak sakatu beharko ditugu. Adibidea: gizonei (Gainean sakatzen baduzu, zabalduko zaizun orrialdean, aztergailua erabiltzeko pausu guztiak banan-banan ikusiko dituzu.

Bilaketa Konbinatuak
Kutxa bat baino gehiago erabiliz, bi hitz edo gehiago bilatu ahal izango dugu, eta guk nahi dugun distantziara agertuko dira. Beraz, hiru kutxa erabilita, adibidez, hain zuzen ere bilatu ahal izango dugu; eta era berean, 4ko distantzia jartzen badugu, “etxe handi zuri bat” aurkitu ahal izango dugu “etxe bat” bilatuta.

• Adibideak

Lehen aipatutako bilaketak egin nahi baditugu, honako pausuak eman beharko ditugu:

Adibidea: hain zuzen ere (Gainean sakatzen baduzu, zabalduko zaizun orrialdean, aztergailua erabiltzeko pausu guztiak banan-banan ikusiko dituzu)

Adibidea: etxe bat (Gainean sakatzen baduzu, zabalduko zaizun orrialdean, aztergailua erabiltzeko pausu guztiak banan-banan ikusiko dituzu)

Bestalde, hitzak eta lemak konbina ditzakegu bilaketak egiteko. Honela, adibidez, “lo” hitza eta “egin” lema bilatuko bagenu, honako emaitzak lortuko genituzke:

Adibidea: lo egin (Gainean sakatzen baduzu, zabalduko zaizun orrialdean, aztergailua erabiltzeko pausu guztiak banan-banan ikusiko dituzu)

Maiztasun Bialatzaileak
Ereduzko Prosa Gaur orrialdean sartuta, hainbat hitzen bilaketa egin dugu, zeintzuen zenbait adibideren berri emango dugun jarraian.

http://www.ehu.es/euskara-orria/euskara/ereduzkoa/ orrian sartuta, Corpus arakatzailea gainean klikatuko dugu. Hemen, corpusaren zenbait datu orokor azaltzen zaizkigu, hala nola:

Denera: 18,2 milioi hitz

Liburuak

9,4 milioi hitz

2000-2005 bitarteko 214 liburu

Prentsa

8,7 milioi hitz

2004ko Berria egunkaria (6,6 milioi hitz)

2001-2005 bitarteko Herria astekaria (2,1 milioi hitz)

Ezker aldean bilatu nahi dugun hitza edo lema idatziko dugu.

Aukeran izango dugu, bilaketa era zehartzago baten bidera dadin, liburuak edota prentsak barne hartzen duen korpusa.

Eguzki

hitza idatzita, ondoko datuak agerrtuko zaizkigu:

Emaitza: 1005 hitz / 983 esaldi

Liburuetan: 771 esaldi 154liburu

Prentsan: 212 esaldi / 142 artikulu

Ondoren, emaitzen kopuruaren araberako lista bat agertzen zaigu; ezkerrean, Liburuaren eta honen egilearen izenak datozkigu, eta, eskuinean, aurkitu hitz kopurua eta hauek dautzan esaldi kopurua agertuko zaizkigu, gehienetik gutxienengorako sailkapenean.

Behin liburua aukeratuta, hitza kolorez nabarmendurik ageriko da zenbakiz dieraziriko orrialdearen esaldi barruan.

Esan dugu eguzki izena bilatzen hasi garela. Hainbat la neta idazleren artean Joan Mari Irigoienen Lur bat haratago aukeratzean ondoko emaitzak agertuko zaizkigu:

1. Orr.: 7

Erlijioneak oro dira eguzki beraren errainu,

2. Orr.: 30

Eta, jauregiaren presiditzeko, bi edergarri genituen: bata zen etxeko armarria, jauregiko aitzinaldeko paretan zegoena, balkoiaren gainean doi eta erdi-erdian; goitiago, armarriaren bertikalean eta terrazaren ertzean, austriarren arrano inperiala zegoen, airos baino airosago, jaun eta nagusi; beherago eta albo baterat, eguzki erloju zaharra.

3. Orr.: 99

Eguzki ederra zegoen, eta, eguzkiaren berotasunean, jarri nintzen ahozpez, besarkatu nuen lurra, eman nion musu, eta erran nion belarrirat:

4. Orr.: 131

Eta osabak eguzkiak bezala egin zidan irri, baina berehala itzali zitzaion eguzki hura.

5. Orr.: 137 -Ez ote dugu laster eguzki eklipse bat izanen, osaba, hainbertze zozorekin…? -erran nion

Eta era honetan nahi beste hitz aurkituko ditugu egunkari eta literatur korpus zabala den honetan.

Etiquetas:

  • Etiquetas