wekkende woordarchief van de toekomst zal niet alleen de basis vormen van een aantal wetenschappelijke synchrone woordenboeken, maar tevens zal het ten dienste staan van alle mogelijke disciplines binnen de taalwetenschap in Nederland en België.
Als men zich realiseert dat de totale hedendaagse Nederlandse woordenschat geschat wordt op 6 à 7 miljoen woorden (zonder flexievormen), dan kan men allicht begrijpen, dat de huidige taaldatabank met de boven genoemde aspiraties pas een beperkt gedeelte hiervan heeft vastgelegd. Het INL heeft in eerste instantie gekozen voor het in bewerking nemen van twee periodes van het Nederlands, t.w. het Vroegmiddelnederlands (van vóór 1301) en het hedendaagse Nederlands (van 1970 tot heden).
Dankzij dr. Maurits Gysseling van de Rijksuniversiteit van Gent kwam ook bij de Thesaurus een hechte Belgisch-Nederlandse samenwerking tot stand. Doordat dr. Gysseling zijn materiaal voor een bewerking met de computer ter beschikking stelde, kon het INL gaan experimenteren met zowel het uitgeven van teksten met behulp van een computergestuurd fotografisch zetsysteem, als met het automatisch vervaardigen van verschillende woordindices en contextgegevens. Zoals wellicht bekend, resulteerde dit in de uitgave van het thans uit 14 banden bestaande Corpus van Middelnederlandse Teksten, gewoonlijk aangeduid met Corpus-Gysseling.
Vanaf 1978 kon met de ervaringen opgedaan met dit corpus het woordarchief van het hedendaagse Nederlands aangepakt worden. Samengevat omvatten de werkzaamheden het volgende:
1. Het selecteren en verwerken van teksten tot voor de computer leesbaar materiaal. De verwerking gebeurt door het intoetsen (keyboarden) van moeilijk bereikbare teksten (zoals reclameblaadjes, folders e.d.), door het inlezen van teksten via een optische lezer (scanner), door het converteren van drukkerstapes en door verwerving van gedigitaliseerd taalmateriaal (b.v. via de telefoon doorgeseind ANP-materiaal).
2. Het ontwerpen van programmatuur om het beschikbare materiaal van taalkundige informatie te voorzien, alsook om dit materiaal uit de taalbank op verschillende manieren op te kunnen vragen (retrieval).
Eind 1985 zal het INL beschikken over een taaldatabank van het hedendaags Nederlands, waarin ca. 50 miljoen woorden (tokens) zijn ingevoerd; let wel: de woorden de en het (types) komen dan ca. 4 miljoen keer als tokens voor. Volgens buitenlandse deskundigen beschikt het INL dán al over het grootste woordarchief van hedendaags materiaal in Europa. Een niet onaanzienlijk gedeelte van dat materiaal zal zijn voorzien van taalkundige codes en verwijzingscodes, d.w.z. vermelding van woordsoort, lettergreep- en morfeemgrenzen e.d., en verwijzingen naar de tekst, zodat niet alleen het woord in zijn context kan worden opgeroepen, maar ook gegevens over de auteur, de taalkring enz. beschikbaar zijn. De computerverwerking betekent uiteraard dat een alfabetische index, een retrograde index (d.w.z. gealfabetiseerd op de laatste letter: alle samenstellingen met b.v. -boer zijn dan makkelijk terug te vinden), een alfabetische frequentielijst, een lijst naar afnemende frequentie enz. van alle woordvormen, slechts korte tijd na de invoer raadpleegbaar zijn.
Op basis van het materiaal van het Corpus-Gysseling zal op korte termijn de redigering van het Vroegmiddelnederlands Woordenboek (VMNW) ter hand worden genomen. Voor de start van het wetenschappelijk Woordenboek van het Hedendaags Nederlands (WHN) zal men echter nog moeten wachten tot 1998: immers, pas na de voltooiing van het WNT zullen de WNT-redacteuren met hun deskundigheid bij dit project kunnen worden ingeschakeld.