Hiru fasetan bereizten da corpus baten burutzea:
1. Testuen hautaketa: autore eta obra errepertorioa.
2. Testuen egiaztatze eta sartzea. Kodeak erabilita, hitz-mota zehaztu egiten da: +…+ (izen berezia); $…$ (extanjerismoak, erdarakadak); <…>(izen arruntak); etab.
3. Lematizazioa: hitz bakoitzari lema bat ezartzen zaio. Morfologiko eta gramatikalki sailkatzen dira eta kategoria zehaztu egiten da.
Entradas desde mayo 2009
Lexikografia konputazionala
mayo 10th, 2009 · Comments Off on Lexikografia konputazionala
Etiquetas:
Questionnaire #2: Research Topics. Interactive Question Answering.
mayo 9th, 2009 · Comments Off on Questionnaire #2: Research Topics. Interactive Question Answering.
Question Answering system is a method based on natural language, whose aim is to locate a piece of information within a large document. We could describe it as a method to rescue answers to specific questions made by a user (“Who was The Lord Of The Rings written by?” “Which is the capital of Russia?”).
This […]
Etiquetas:
BNC
mayo 9th, 2009 · Comments Off on BNC
British National Corpus-a (BNC) 100 milioiko hitz-bilduma da, Erresuma Batuan hitz egiten den ingelesaren erakusgarri dena. BNC-k 4.054 testu ditu; hots, inprimatuz gero 100 metro-paper izango litzateke, eta osorik irakurtzeko 4 urte beharko genituzke. BNC-a 1990ean sortu zuten eta hurrengo urterako dagoeneko martxan zegoen, lehenengo hiru urteetan ehunka hitz bilduz. 100 milioi horietatik, ehuneko laurogeita […]
Etiquetas:
Me he vuelto a equivocar
mayo 9th, 2009 · Comments Off on Me he vuelto a equivocar
Soy una persona muy apasoinada. Muchos pensais que en exceso. A mi, por ejemplo, cuando me gusta una película no se queda en gustarme, a mi me apasiona y me vuelve loca, la veo mañana y tarde hasta aprendérmela de memoria. Si me gusta una canción, otro ejemplo, la escucho con el “repeat” sacando humo […]
Etiquetas:
Giza Hizkuntza Teknologien Zentruak (Q.1)
mayo 9th, 2009 · Comments Off on Giza Hizkuntza Teknologien Zentruak (Q.1)
Europako Giza hizkuntza Teknologia zentroen artean hiru aipatu behar ditugu: Dublineko Hizkuntzen Teknologia Zentrua, Euskal Herriko IXA taldea eta Alemaniako Hizkuntza Teknologien Laborategia.
Aipatuko dudan lehenengo zentrua, Dublineko “Hizkuntzen Teknologia Zentrua” da, bertako Unibertsitatean dagoena. Zentru honek ikerkuntza arrunta eta aplikatua du eremu hauetan: itzulpen automatikoan, hizkuntza naturalen analisi sintaktikoan, indukzio gramatikan, erantzun galderetan, analisiaren sentimenduan, ordenagailu bidezko hizkuntzen ikasketa, software […]
Etiquetas:
“Corpus” linguistikoa
mayo 9th, 2009 · Comments Off on “Corpus” linguistikoa
“Corpus” linguistiko bat hizkuntza batetik ateratako adibide multzo bat da. Adibide hauek guztiak testuak izaten dira normalean, baina ahozko formatoan ere egon daitezke. Hizkuntzalaraitzak badu adar bat hizkuntzak ikertzen dituena adibide hauen bidez. Adar honi “Corpus-linguistika” deitzen zaio. Pentsaera honek talka egiten du Chomsky-k esandakoarekin, hizkuntza hiztunaren intuizioaren bidez ikertu behar baita haren ustez. “Corpus […]
Etiquetas:
Itzulpengintza Automatikoa
mayo 9th, 2009 · Comments Off on Itzulpengintza Automatikoa
Itzulpengintza automatikoa informatika bezain zaharra edo gehiago da. Segur aski, giza zein ekonomia baliabide gehien jaso duen aplikazioetako bat da. Merkatuak gaur egun, makina bat produktu eskaintzen ditu eta benetan zaila da aditua ez denarentzat dituen beharretarako aproposena zein den erabakitzea. Artikulu honetan funtsezko gakoak emango dira teknologia honetara jotzearen aukera gutxieneko ezagutza izanik landu […]
Etiquetas:
Information extraction (2nd Questionnaire)
mayo 8th, 2009 · Comments Off on Information extraction (2nd Questionnaire)
As Jim Cowie and Yorick Wilks said in one article, “Information Extraction (IE) is the name given to any process which selectively structures and combines data which is found, explicitly stated or implied, in one or more texts”. We have to add that Information Extraction is a technology based on analyzing Natural Language, and when […]
Etiquetas:
Multiword expression (MWE) (Q2)
mayo 8th, 2009 · Comments Off on Multiword expression (MWE) (Q2)
Multiword expression (MWE): we called like this to the prases that focusing on the basis of stadard grammar rules and lexicar entries are not entirely predictable.
Nevertheless, we can´t think that any expression that can be realised hyphenated,as a single lexeme or alternatively with spaces, for instance: mailman/postman vs. mail/postmant, is a MWE. This could be used […]
Etiquetas:
“I made a decision
mayo 8th, 2009 · Comments Off on “I made a decision
And it’s the same decision I made two years ago. I’ve been sick the entire day, now, after making up my mind I’m completely treated.”
P.D.: Arreglado ha quedado el ordenador, un error que casi me deja sin mi enano, sniif!!
Etiquetas:
DigiPen Institute of Technology Europe-Bilbao
mayo 8th, 2009 · Comments Off on DigiPen Institute of Technology Europe-Bilbao
It has been published today by the local media:
The Bilbao Chamber of Comerse and DigipPen USA are honoured to present DigiPen Institute of Technology Europe-Bilbao, a project the goal of which is to boost a new strategic sector in Euskadi: Videogames and Virtual Reality. To this end, we will create high-performance training and research in […]
Etiquetas:
Resolution of the Lexical Ambiguity (Questionnaire 2)
mayo 7th, 2009 · Comments Off on Resolution of the Lexical Ambiguity (Questionnaire 2)
The most frequently used words in English are highly ambiguous; for example, Webster’s Ninth New Collegiate Dictionary lists 94 meanings for the word “run” as a verb alone. Yet people rarely notice this ambiguity. Solving this puzzle has commanded the efforts of cognitive scientists for many years. The solution most often identified is “context”: we use the […]
Etiquetas: