dig product stelt immers zijn eigen eisen aan de materiaalverzameling. Daarbij kan W(E)TEN een heleboel leren van de materiaalverzameling van het WNT (Van der Voort van der Kleij 1975; Moerdijk 1994), maar ook van de Europese expertise, zoals die ontwikkeld is in een aantal projecren als Network of European Corpora (Nerc) en Parole (Kruyt 1996). Een zo groot mogelijke variatie aan geschreven en gesproken teksttypen in de standaardtaal is daarbij vereist. Die typen kan men ondermeer indelen naar medium of naar topic. Met ‘naar medium’ bedoelen wij een verdeling van de verschillende teksten over bijvoorbeeld de categorieën woordenboek, boek, brief, kranr, magazine, brochure, advertentie en voor de gesproken taal over conversatie, discussie en debat. Topic staat dan voor domeinen als godsdienst, techniek, wetenschap, sport, kunst, politiek, geschiedenis, medicijnen, filosofie enz. Hoe de verhoudingen moeten liggen in de verdeling over medium, literair genre, topic, medium, e.d. wordt door de samenwerkende taalgebieden binnen Parole in ondergrenzen en bovengrenzen berekend.
Alleen een elektronisch referentie- en monitorcorpus zijn voor de lexicograaf niet genoeg. Voor hem is meer nodig dan de charme van een expositiehal. Die corpora moeten aan nog andere strenge eisen voldoen. Alle teksten en zinnetjes die er deel van uitmaken, moeten verrijkt worden. Met tekstverrijking bedoelen wij het toevoegen van allerlei soorten informatie aan elektronische teksten of aan taalkundige eenheden in die teksten. Daarom hebben wij een computerprogramma ontwikkeld dat woordvormen in een corpus automatisch verrijkt met woordsoortcodes en trefwoordvormen. Zo wordt bijvoorbeeld bij zagen automatisch vermeld, dat die vorm hoort bij het trefwoord zien en bij het zelfstandig naamwoord zaag. Door aan iedere woordvorm een woordsoortcode toe te kennen, is het mogelijk om bijvoorbeeld bij erg onmiddellijk te zien of wij met een zelfstandig naamwoord (geen erg in iets hebben) of met een bijvoegelijk naamwoord (het is meer dan erg) te maken hebben. Het hulpmiddel dat die lemmatisering alsmede de morfosyntactische codes per woordvorm aanbrengt, wordt in de vakliteratuur tagger-lemmatiseerder genoemd.