Hiru fasetan bereizten da corpus baten burutzea:
1. Testuen hautaketa: autore eta obra errepertorioa.
2. Testuen egiaztatze eta sartzea. Kodeak erabilita, hitz-mota zehaztu egiten da: +…+ (izen berezia); $…$ (extanjerismoak, erdarakadak); <…>(izen arruntak); etab.
3. Lematizazioa: hitz bakoitzari lema bat ezartzen zaio. Morfologiko eta gramatikalki sailkatzen dira eta kategoria zehaztu egiten da.