Boekbespreking
Talen en tellen
‘Mijn verwachting is dat het zo normaal zal worden dat taalonderzoekers een computer gebruiken dat de term “computer-taalkunde” even pleonastisch zal worden als “kijker-astronomie”’
Van de hand van H. Brandt Corstius verscheen eind 1978 het boek ‘Computer-taalkunde’. Het gemiddelde lezerspubliek van Onze Taal zal zich wellicht afvragen waarom dit boek in dit blad besproken hoeft te worden. Een gedeeltelijk antwoord kan zijn dat zo'n boek aan lezers als C.D. Goudappel die in Onze Taal 43 van 1974 zich verwondert over de rare lettergreepsplitsingen in onze kranten, een verklaring geeft. Als verantwoording is dit uiteraard te mager, maar het boek is nog om andere redenen boeiend voor in taal geïnteresseerde leken.
Vooreerst is ‘Computer-taalkunde’ een leuk boek. Het is misschien een ongewone manier van doen om als eerste verdienste van een wetenschappelijk werk te vermelden dat het leuk is, maar zo veel wetenschap wordt zwaartillend verstikt in holle cliché-fraseologie dat, als het dan eens niet gebeurt, er melding van moet worden gemaakt. Brandt Corstius heeft alles gedaan om zijn niet zo gemakkelijke stof ook voor de leek begrijpelijk én aantrekkelijk te maken. Hij begint met te vertellen wat nou eigenlijk die Heilige Computer is, niet in een gesofistikeerd vakjargon maar in Nederlandse huis-, tuin- en keukentaal. Voor de duidelijkheid doet hij er wat vergelijkingen bij met dingen die iedereen kent: thermometers, zandlopers, schrijfmachines... Voorts verlucht hij zijn tekst met lapidaire uitspraken als ‘de gedachte dat taalkunde alleen maar hulpwetenschap is bij de literatuurwetenschap (...) is even dwaas als de gedachte om de geneeskunde te beschouwen als hulpwetenschap bij de acrobatiek’ en ontluistert hij ironisch wetenschappelijke hoogmoed en overmoed door verwaande citaten van lakonieke kommentaren te voorzien in de trant van ‘dat is gewoon gelogen’ of ‘de taal mag dom zijn, maar de computer-taalkundige moet daar toch iets weten op te vinden, zonder de taal zelf te verbeteren’. Voor de vertrouwden is er dan nog een stukje mystifikatie die hierin bestaat dat Brandt Corstius het verhaal over de automatische vertaling ontleent bij ene Battus, medewerker aan Hollands Maandblad.
Tot daar enkele van de ludieke kanten van dit boek. Nochtans, nog om een andere reden heeft het mij bekoord. Gewend als ik ben aan gouden-bergen-belovende computerfanaten, was het verfrissend nu eens een niet te hooggestemde klok te horen. In Brandt Corstius horen we telkens weer de man met de computerervaring aan het woord. Hij is duidelijk over de euforie van de prille computerlinguïst heen. Zijn badinerende opmerkingen tussen neus en lippen verraden vaak treffend de taaie ellende die iedereen die al ooit met de computer taalkunde ‘bedreven’ heeft aan den lijve ondervonden heeft. Als hij zegt: ‘deze handelingen worden herhaald totdat òf de taalkundige tevreden is, òf de taalkundige er genoeg van heeft, òf de programmeur er genoeg van heeft’, dan voel ik met hem mee. In dezelfde zin kan ik ook het kritische en doordachte verhaal over de automatische vertaling appreciëren. Ook daarin is een afstandelijkheid te horen die geruststellend klinkt. Blijkbaar behoort Brandt Corstius wel tot de computersekte, maar zijn credo (‘Eens zal de computer net zo verbaal begaafd zijn als de mens’) wordt (voorlopig?) nog overstemd door zijn realisme. Gelukkig maar!
Daarmee ben ik eigenlijk nog altijd niet aan de beoordeling van de inhoud van Brandt Corstius' boek toe. Dat vind ik ook het moeilijkste stuk. ‘Computer-taalkunde’ is het eerste overzichtswerk in het Nederlandse taalgebied. En eerste kinderen verdienen onthaald te worden met wat extra-liefde. Ik zal dan ook in wat volgt liefdevolle benadering betrachten en de roede sparen voor de achterkomertjes.
Wat mij in het werk van Brandt Corstius vooral aanspreekt, is het streven naar duidelijkheid en samenhang. Hij vergenoegt zich nergens met vaagheden of halve wijsheden, hij neemt zich de moeite de dingen uit te leggen. En in dit opzicht is dit boek vooral een aanrader voor wie zijn eerste kennismaking met de computer-taalkunde grondig wil aanpakken. Na Brandt Corstius' boek ‘begrijp’ je wat computertaal is, wat een programma is, en vooral wat een computer voorlopig kan en niet kan. Niet alleen is er overvloedige uitleg en krijgen we volledig uitgewerkte voorbeelden, ook oefeningen zijn voorzien! Betekent dit nu dat er geen tekorten aanwijsbaar zijn?
Ach, er zijn schoonheidsfoutjes: algoritme, contextvrije grammatika en entropie zijn m.i. onduidelijk geïntroduceerd en er komen in de uitleg wel eens wiskundige stappen voor die de neofiet in de computer-taalkunde niet meteen zal kunnen mee zetten (‘voor één uit m berichten zijn 2logm bits nodig’ p. 87). Maar die trulligheden zien we graag door de vingers als we merken hoe briljant we telkens weer met de neus op de mogelijkheden van de computer in de taalkunde gedrukt worden, als we zien hoe Brandt Corstius inzicht heeft in taalkunde en hoe hij dat inzicht weet te vertalen naar de computer. De bij Chomsky uit de leer komende linguïst zal m.i. gretig het hoofdstukje over de corpus-taalkunde lezen evenals het verhaal over de contextvrije grammatika's. De linguïstische statisticus zal met verrukking het verhaal over aanvaardbaarheid en waarschijnlijkheid van verschillende types Franse vraagzinnen lezen en de sociolinguïst zal verheugd merken dat zelfs de moeilijk vatbare ‘variatie’ en ‘stijl’ in een corpus, door de computer (ook letterlijk) in kaart kunnen worden gebracht.
De systematische behandeling van achtereenvolgens: 1. woord, 2. zin, 3. meer dan zin, die overeenstemt met de uit de taalkunde bekende hoofdstukken morfologie, syntaxis en tekstgrammatika, loopt bij Brandt-Corstius parallel met de in klimaks gaande aktiviteiten van het ‘flauwe tellen’, over het uitdagende algoritmische sleutelen, tot het grandioze kunstmatig-intelligente spelen.
Alleen met dat ‘flauwe tellen’ heb ik het moeilijk. Ten eerste vind ik het helemaal niet zo flauw en ten tweede ben ik het niet eens met de auteur dat tellen nog geen enkel taalkundig inzicht heeft geleverd. Wat het eerste punt betreft: als Brandt Corstius de kwantitatieve taalkunde niet als echte computertaalkunde beschouwt en ze zelfs een beetje flauw vindt, dan is dat zijn zaak. Mij lijkt dat tellen helemaal niet zo flauw. Integendeel, het resultaat dat nu al na beperkt onderzoek is bereikt, sterkt mij in mijn geloof (!) dat de kwantitatieve aanpak op korte termijn zeer veel kan bieden. Alleen zijn er nog te weinig statistisch geschoolde taalkundigen te vinden die tegelijkertijd weten wat de statistiek kan en wat ze de taalkunde te bieden heeft. ‘Pittige’ en hersenpijnigende vragen die om een oplossing smeken zijn er nog genoeg. Enkele voorbeelden: een van steekproeflengte onafhankelijke diversiteitsmaat voor woordenschat, een theoretisch model voor de verdeling van zinslengten, een betrouwbaar model voor de woordsoortverdeling, enz. met telkens de daarbijbehorende signifikantietoetsen voor beoordeling van willekeurige teksten.
Met betrekking tot het bezwaar dat de