Littera Deusto

Modern Languages, Basque Studies and Humanities

CORPORA MOTAK ETA ADIBIDEAK

abril 22nd, 2009 · No hay Comentarios

CORPORA MOTAK

Corpus bat osatzen duten testuek ez dute zertan hizkuntza bakar batean ( monolingue) idatzirik egon behar, bi hizkuntzatan edo gehiagotan idatzirik egon daitezke. Bi hizkuntzetan edo gehiagotan idatzita egongo balira testuak,corpusak bilingueak edo multilingueak izango lirateke. Kasu honetan, testuak ez dira modu arbitrario batean aukeratzen,hizkuntza baten kriterioak kontuan izanda baizik. Adibidez, “Aarhus Corpus of Danish, French and English”, frantsesezko, ingeleseko eta daneseko testuez osaturik dago eta kontratu-eskubideari buruz hitz egiten dute. Testuak berez ezberdinak dira baina tematika berdina da. 

Corpus multilingue bat osatzen duten testuak guztiz berdinak direnean, baina hizkuntzari erreparatuz hizkuntza ezberdina erabiltzen dutenean, corpus paralelo baten aurrean gaude. Aldiz, testu guztiek gauza bera esaten badute, baina itzulpenak zehatzak (berdinak) ez badira, corpus erkagarri (konparagarri) baten aurrean gaude.

 

CORPORAREN ADIBIDE GEHIAGO

Hansard:  corpus paraleloa da eta Kanadako parlamentuko akten bilduma bat du ingeleses eta frantsesez idatzita.

GILLBT: Bibliako testuen bilduma bat da eta Ghanan existitzen diren hizkuntza guztietan idatzirik dago.
 
ATR Dialogue Database: corpus paraleloa da,japoniera – ingelesa. Telefonoz eta ordenagailuaren teklatuaren bitartez gauzatu diren elakrrizketa simulatuen traskribapenak daude.
 
Leiden-Jerusalem Armenian Database:Armeniako Erdi-Arokoak eta klasikoak diren testuen bilduma armenieraz, grekeraz, arabieraz eta sirieraz.

 

BIBLIOGRAFIA:

*  http://euitio178.ccu.uniovi.es/~tania/pmwiki/pmwiki.php?n=Main.QuEacuteEsUnCorpus

Etiquetas:

  • Etiquetas