informatiedragers overgebracht dan moeten zij eerst gecodeerd (d.i. voorzien van taalkundig relevante informatie) worden om voor vele doeleinden bruikbaar te kunnen zijn. Om te dienen als basismateriaal voor een woordenboek moet dan allereerst het complete materiaal gealfabetiseerd en gelemmatiseerd worden (d.i. het samenbrengen van de verschillende vormvarianten van een woord, bijv. enkel- en meervoudsvormen, onder een noemer). Met de hand sorteren van miljoenen kaartjes met verschillende vormen duurt jaren. Als je echter op grond van een handcodering wetmatigheden afleidt dan kunnen die aan een automatische lemmatiseerprocedure ten grondslag gelegd worden. Natuurlijk blijven er altijd teksten (oudste taalfasen, dialectteksten) die hoofdzakelijk met de hand gecodeerd moeten worden. Uiteraard kan met een gecodeerd corpus ook ander dan lexicografisch onderzoek verricht worden. Met een relatief geringe extra inspanning bij het inbrengen van de codes kan ook voor basismateriaal t.b.v. fonologisch (spraakklanken), morfologisch (buigingsverschijnselen, samenstellingen) en syntactisch (zinsbouw) onderzoek gezorgd worden.
Aan verschillende universiteiten werd of wordt reeds onderzoek verricht aan de hand van een tekstcorpus. Voor één specifiek doel werd dit dan gecodeerd en dus alleen voor dit specifieke doel kon hiervan gebruik worden gemaakt.
Hierin schuilt het grote verschil met het door de Thesaurus beoogde corpus. Wij willen een multifunctioneel corpus, dat bruikbaar is in principe voor alle soorten taalkundig onderzoek met de nadruk op lexicologisch.
Samenvattend onderscheidt zich het door ons beoogde tekstarchief van alle met een specifiek doel ingerichte tekstcorpora op de volgende punten: 1) representativiteit (de gehele Nederlandse taal in al zijn diachrone, diatopische en sociale variaties) 2) omvang (in samenhang met 1) denken we aan een corpus van vele miljoenen tokens (= verschillende woordvormen) 3) codering (gericht op vele soorten linguïstisch onderzoek, met name op de lexicologie) 4) toegankelijkheid (het materiaal dient ieder ter beschikking te staan, die onderzoek wil verrichten).
Met bepaalde onderdelen van grote uitgeverijen zijn afspraken gemaakt over het ter beschikking stellen van hun zettapes voor wetenschappelijk onderzoek. De Werkgroep Frequentie-Onderzoek van het Nederlands stond ons een kopie van haar banden af, waarop zij o.a. het onder redactie van P.C. Uit den Bogaart gepubliceerde onderzoek Woordfrequenties in geschreven en gesproken Nederlands (Utrecht 1975) (±720.000 woorden) baseerde.
Zelf hebben we grote aantallen Nederlandstalige werken verponst en, met de ponsband als invoer, soms ook ongepubliceerd materiaal uitgegeven. Het belangrijkste hiervan is het Corpus van Middelnederlandse teksten, uitgegeven door M. Gysseling, een complete verzameling van het 13e-eeuwse materiaal in de volkstaal. Het bevat ca. 2100 niet-literaire documen-Het bevat ca. 2100 niet literaire documenten, voor het merendeel voor het eerst uitgegeven. Voor de literaire handschriften zijn vijf delen voorzien, waarvan het eerste deel, Fragmenten, in februari 1980 is verschenen. Het bevat 1) het Oudnederlands materiaal (en dat is beslist véél meer dan het bekende liefdesversje: hebban olla vogala...) en 2) de resten, snippers, fragmenten en bladvullingen van eertijds grotere handschriften, die in deze gehavende toestand tot ons gekomen zijn.
Hoewel ook deze tekstuitgaven een wezenlijke bijdrage vormen voor het verdere onderzoek van vooral het oudste Nederlands, komen zij tot stand in functie van ons woord- en tekstarchief. Vooral aan het moderne gedeelte zullen we in de komende jaren onze (codeer-)werkzaamheden wijden. Van deze enorme, gecodeerde verzamelingen modern tekstmateriaal worden alle woorden gealfabetiseerd en, van context voorzien, op fiche-lijsten uitgevoerd.
Hiermee gaat een nieuwe generatie redacteuren aan de slag om een eigentijds woordenboek te schrijven. De woorden en woordbetekenissen weerspiegelen dan de geestelijke activiteit van de eigen generatie deskundigen op veel terreinen van het geestelijk en maatschappelijk leven.
De moeizame arbeid om dit alles aan een redacteur ter bewerking aan te bieden geschiedt machinaal (alfabetiseren, lemmatiseren, contextkaarten maken). De rest is en blijft handwerk.
W.J.J. Pijnenburg
Instituut voor Nederlandse Lexicologie
Leiden