van de twintigste eeuw. Voor het Amerikaanse Engels werd dit BNC niet geschikt geacht. Er bestaan tussen die twee varianten zoveel verschillen in taalgebruik dat sinds kort voor het Amerikaanse Engels een apart corpus ontwikkeld wordt, het zogenoemde ANC, American National Corpus. De opzet en de doelstelling zijn vergelijkbaar met die van het BNC.
Het British National Corpus heeft ook als inspirator gefungeerd voor het grote Nederlands-Vlaamse project Corpus Gesproken Nederlands (CGN) dat in juni 1998 van start is gegaan. Het heeft een looptijd van vijf jaar: de verwachting is dat het volledige corpus medio 2003 beschikbaar is. Dan is het mogelijk om voor het Engels ontwikkelde technologieën op het Nederlands toe te passen.
De initiatiefnemer is prof. dr. Willem Levelt, directeur van het Max Planck Instituut voor Psycholinguïstiek in Nijmegen. Het project wordt gefinancierd door de Nederlandse en Vlaamse regering en door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek.
Er zijn twee coördinerende locaties aangewezen: Gent voor Vlaanderen en Nijmegen voor Nederland. Een bestuur, waarvan initiatiefnemer Levelt de voorzitter is, draagt de eindverantwoordelijkheid voor dit gigantische project. Tientallen deskundigen uit Noord en Zuid verlenen er hun medewerking aan, maar ook overheidsambtenaren en belanghebbenden uit het bedrijfsleven. Alle rechten zijn in handen van de Nederlandse Taalunie, sinds 1980 een officieel samenwerkingsverband tussen Vlaanderen en Nederland op het gebied van taal en letteren. De Taalunie houdt zich de laatste jaren behalve met corpusplanning (het vastleggen van de woordenschat, de grammatica, de spelling en terminologie) meer en meer bezig met wat statusplanning wordt genoemd. Het gaat de Taalunie dus niet alleen om het codificeren van het Nederlands, maar ook om de status en het prestige van die taal binnen de Europese Unie.
Het CGN-project is gericht op de aanleg van een databank van het hedendaagse ‘democratische’ Standaardnederlands zoals dat vandaag de dag door 80% van de volwassen Nederlanders en 50% van de volwassen Vlamingen gesproken wordt. Je kunt dus wel min of meer horen of een spreker uit Groningen, Utrecht, Leuven of Kortrijk komt. Geschreven Nederlands komt, anders dan bij het Britse en Amerikaanse corpus, niet in aanmerking voor het onderzoek: daarover is ruime informatie beschikbaar. Doordat het alleen gesproken taal betreft, verschilt ook de omvang: een duizendtal uren spraak (tien miljoen woorden), zijn ruimschoots toereikend voor het CGN. Tweederde van die woorden (met hun context) is afkomstig uit Nederland en eenderde uit Vlaanderen. De talrijke proefpersonen verschillen wat betreft sekse, leeftijd, beroep en opleiding; ze zijn bovendien afkomstig uit alle regio's van het Nederlandse taalgebied. Hun ongedwongen taalgebruik kenmerkt zich door een grote mate van diversiteit, ook qua spreekgenre: er zijn winkelgesprekken bij, tramconversaties, interviews, een directievergadering, lessen op school, een lezing, discussies en debatten, een preek, enz. De proefpersonen zijn uitgerust met een microfoon die op elk moment van de dag opneemt wat ze tegen welke gespreksgenoot dan ook zeggen. In studio's worden bovendien ruisvrije en technisch uitgekiende opnamen gemaakt. Die miljoenen geregistreerde woorden zijn ingebed in spontane en natuurlijk klinkende zinnen. Dat houdt onder meer in dat aarzelingen, versprekingen, taalfouten, afgebroken zinnen, verschillende spreeksnelheden, een kuch en een hoest, enz. ook worden opgenomen. Op een vernuftige en bewerkelijke manier worden die woorden geanalyseerd en voorzien van fonisch (fonetisch en fonologisch), semantisch, lexicologisch en ander taalkundig commentaar. Het doel is vooral te weten te komen hoe het huidige Standaardnederlands in al zijn gevarieerdheid klinkt en in elkaar
zit. Er moeten zoveel Nederlandse taaluitingen worden geregistreerd dat een elektronisch apparaat als een spraakherkenner ze moeiteloos ‘verstaat’.
Behalve voor de taal- en spraaktechnologie, de digitalisering van taal, is het CGN ook van groot belang voor de taalkunde in brede zin: lexicografen, fonetici, fonologen, syntactici, semantici, socio- en psycholinguïsten en conversatie-analisten zullen hun voordeel kunnen doen met de verkregen resultaten. Bovendien is zo'n dieppeilend portret van het ‘vluchtige’ gesproken Nederlands relevant voor het onderwijs. Inzicht in het feitelijke, dagelijkse taalgebruik is zowel onontbeerlijk voor de