| |
| |
| |
Litterae ex machina
Taalkunde en automatisering
Sinds haar ontstaan als wetenschap heeft de taalkunde de invloed ondergaan van tal van geestesstromingen. De romantiek, het darwinisme, de natuurwetenschap, de psychologie, de sociologie, ze hebben allemaal ‘for better for worse’ de taalwetenschap beïnvloed, ja soms de bedding van de taalkundige stroming ingrijpend verlegd.
In de laatste tijd nu valt er een sterke invloed te bespeuren van de wiskunde op de taalkunde. Terwijl het taalonderzoek in het verleden altijd veel meer belangstelling heeft getoond voor de kwalitatieve dan voor de kwantitatieve kant van de taal, mag de kwantitatieve linguïstiek zich in de laatste jaren in een grote belangstelling verheugen. Deze ontwikkeling der taalkunde in mathematisch-kwantitatieve richting komt niet uit de lucht vallen. Toen men eenmaal zover was dat taalkunde niet langer synoniem was met taalgeschiedenis, toen men de taal eindelijk vermocht te zien als een synchroon systeem van tekens, lag het voor de hand dat men zich zou gaan afvragen, in hoeverre de taalstructuur, dat geheel van geordende drijfveren, zich laat formaliseren. Leibniz, die in 1716 stierf, had ervan gedroomd de logica en de taal te formaliseren, d.w.z. te binden aan een systeem van tekens. Het heeft echter tot 1910 geduurd eer, althans voor de logica, het doel was bereikt.
Het verschijnen der Principia Mathematica (1910) van A.N. Whitehead en B. Russell maakte het mogelijk, van wiskundige symbolen gebruik te maken bij het behandelen van logische verhoudingen. Maar al kan men met A. Reichling de mening zijn toegedaan, dat het streven naar formalisering in de taalkunde de toekomst heeft, dan betekent dit geenszins dat, wat voor de logica werd bereikt, ook mogelijk zal blijken te zijn voor de taal. De moeilijkheid is niet alleen dat er zoveel talen zijn, en dat de structuren van die talen zo ongelooflijk veel van elkaar verschillen, maar vooral dat deze taalstructuren zo bijzonder ingewikkeld zijn. Elk van de vele taalsystemen berust op een stelsel van ‘regels’, drijfveren, die echter een zekere mate van variatie, van soepelheid toelaten. De taal is wel degelijk geordend, maar haar ordening, haar regels zijn geen wiskundige regels. Deze laatste zijn per definitie zonder uitzonderingen, de taalwetten echter zijn allesbehalve ‘ausnahmslos’.
De linguïstiek ondergaat thans in haar wijze van formuleren onmiskenbaar de invloed van de wiskunde en de symbolische logica. Zo kan men een zin gedefinieerd zien als S + P + O, wat betekent een onderwerp met een gezegde en een object. Daarvandaan ook dat het vak- | |
| |
jargon van sommige linguïsten doorspekt is met mathematische uitdrukkingen als algorithme, matrix of model. Een kwestie van mode? Ongetwijfeld, maar toch ook wel degelijk meer dan dat. Men dient er echter op bedacht te zijn dat noch de symbolisering in de linguïstiek, noch de zgn. taalkundige modellen mathematisch zijn in de strikte zin van het woord. Anderzijds doet het vakjargon van de wiskundige logica tevens een beroep op de linguïstische terminologie. Maar woord, taal, semantiek en syntaxis betekenen daar iets anders dan wat de taalkundige daaronder pleegt te verstaan. De wiskundige talen, ook wel formele talen genoemd, zijn stellig, evenals de menselijke talen of natuurlijke talen, stelsels van tekens, maar toch wel van een geheel andere soort.
De beïnvloeding van de taalkunde door de wiskunde, waarvoor de synchronisch-structurele visie de weg had vrijgemaakt, werd op stormachtige en spectaculaire wijze bevorderd door het verschijnen van de computer, ook rekenautomaat of beter nog informatie (verwerkende) automaat genoemd, waarvoor Prof. Zoutendijk in 1964 de mengvorm informaat heeft voorgesteld. Deze leent zich immers ook voor verwerking van niet-numerieke gegevens, mits deze numeriek zijn gecodeerd. Viert de informatieautomaat in 1966 zijn twintigjarig bestaan, zo dateert het gebruik van dit wiskundig-logische wonderinstrument voor taalkundige doeleinden echter pas van 1949 (bescheiden proeven met machinale vertaling), resp. van 1953 (machinale tekstvergelijking). In 1953 bewees John W. Ellison de praktische uitvoerbaarheid van elektronische tekstkritiek, door met behulp van de computer der universiteit van Harvard te Cambridge (Mass.) een overzicht te geven van de varianten van vier kapittels in het Evangelie van Lukas in 311 Griekse handschriften. Tien jaar later waren de verschillende toepassingen en initiatieven op het gebied der aanwending van automatiseringstechnieken in de taalkunde nogmin of meer te overzien. Op dit ogenblik staan we voor een kettingreactie van initiatieven, die weer leidt tot splitsing en specialisering. Een in 1963 verschenen boek waarin men alles bij elkaar vindt wat toen op het gebied der automatisering in de lexikologie te koop was, is thans al grotendeels verouderd. De conferenties en colloquia op dit gebied volgen elkaar op: september 1964 ‘Literary Data Processing Conference’ op het Thomas J. Watson Research Center van de IBM te Yorktown Heights bij New York; mei 1965: ‘International Conference on Computational Linguistics’ te
New York. In juni 1966 vond te Praag eveneens een dergelijke bijeenkomst plaats.
Voor het aanwenden van de computer voor linguïstische doeleinden is in de laatste tijd de term computerlinguïstiek in gebruik gekomen. Deze omvat de automatische processen die verband houden met het verzamelen, verwerken en vertalen van taalkundige informatie. Bij deze nieuwe soort van taalkunde zijn verschillende niveaus te onderscheiden. Hoe hoger men grijpt, hoe moeilijker en theoretischer het onderzoek, en
| |
| |
hoe verderweg ook de resultaten liggen. Een automatische linguïstische analyse die zou leiden tot het herkennen van formele en semantische klassen op grond van bepaalde criteria wordt voorlopig nog slechts op zeer beperkte en niet al te moeilijke proefobjecten getest.
Iets minder hoog grijpt de machinale vertaling en de nauw ermee samenhangende machinale generatie van zinnen. In tal van universitaire en andere centra, vooral in de Verenigde Staten van Amerika, werken jonge linguïsten van naam aan projecten op dit gebied. Men krijgt echter de indruk dat de praktische resultaten der mechanische vertaling niet in een redelijke verhouding staan tot de eraan gespendeerde energie. Dit hangt uiteraard samen met de ingewikkelde structuur der natuurlijke talen, die weinig bevorderlijk is voor een bevredigende wiskundiglogische formalisering. De syntactische analyse en de vormleer van levende talen zijn nu eenmaal niet eenvoudig en de semantische problemen zo moeilijk, dat de onderzoekers er op dit punt meestal het zwijgen toe doen. Leidt het onderzoek op dit gebied dan tot niets? Zelfs als het waar zou zijn dat een redelijke machinale vertaling een utopie is, dan nog is, van zuiver theoretisch-linguïstisch standpunt bezien, dit onderzoek bijzonder nuttig. Het verschaft ons waardevolle gegevens over de formele aspecten van de structuur der natuurlijke talen, het geeft ons enig inzicht in de mogelijkheden en grenzen der formalisering van het fenomeen taal. Blijven de linguïsten in gebreke om een bruikbare formalisering van de taal te leveren? of laat de taalstructuur zich eenvoudig niet reduceren tot een eindig stel regels? Er is trouwens nog een andere moeilijkheid bij de mechanische vertaling. Taalgebruik immers veronderstelt een voortdurende stilzwijgende interpretatie t.o.v. gegeven situaties, iets wat men van de informatieautomaat echter niet kan verlangen. ‘In Amsterdam is gisteravond de verwoesting van Hirosjima door een atoombom herdacht’ (N.R.C. 7 aug. 1962). Herdenkt een atoombom
verwoestingen? Of herdenkt men te Amsterdam Hirosjima door een atoombom te gooien? Idiote vragen ongetwijfeld, maar niet voor de per definitie onintelligente machine.
Het onderzoek op het gebied der mechanische vertaling beweegt zich echter vaak op een minder hoog niveau. Men moet namelijk kunnen beschikken over gegevens van taalstatistische of lexikologische aard, zoals frequentielijsten van de algemene woordenschat en van de verschillende vaktalen; de laatste noemt men micro-glossaria, of beter ideo-glossaria. Voor de mechanische vertaling is een zeer uitvoerig lexikografische ondergrond vereist, niet voor één taal, maar altijd op zijn minst voor twee talen.
Voor zover er praktische, d.i. voor de consumptie bestemde resultaten op het gebied der taalkundige automatisering werden bereikt, liggen deze dan ook op een niet al te hoog niveau, en wel op dat van de verzameling, hergroepering, onderlinge vergelijking en statistische berekening van
| |
| |
taalkundige gegevens. Dit gebied der automatisering moet uiteraard ook anderen dan taalkundigen interesseren. Zo ligt de automatische tekstkritiek op het terrein van de filoloog, d.w.z. de man die zich bezighoudt met de studie van tekst en tekstoverlevering, terwijl een woordstatistisch onderzoek zeker ook de belangstelling van literatuurhistorici gaande kan maken. De literaire esthetiek, de musicologie en de linguïstiek zijn alle geinteresseerd in een grootscheeps, alleen met behulp van de informaat uitvoerbaar, onderzoek van het functioneel-ritmische patroon der woorden in de poëzie van Homerus en Vergilius. Het gebruik van statistische methodes ligt voor de hand bij een onderzoek naar het auteurschap van anonieme geschriften. Voor taalstatistisch onderzoek van enige omvang is de computer uiteraard het ideale, ja het enig bruikbare instrument. Een gebied dat mensen van de taalkundige en van de literaire richting verenigt, zijn lexikologische inventarissen, zoals indices en concordanties.
Een index is een alfabetische lijst van alle woorden die in een tekst voorkomen, met vermelding van hun vindplaatsen, doch zonder context. In een concordantie daarentegen is elk woord vergezeld van een zekere portie context, zoals dat het geval is in de concordantie op de Statenbijbel, waaraan de Nederlandse predikant Abraham Trom (1633-1719) achtentwintig jaar heeft gewerkt. Hieruit kan men opmaken dat het vervaardigen van indices of concordanties met de hand geen kleinigheid is. Als men thans met behulp van de computer een concordantie op de bijbelvertaling van het Nederlands Bijbelgenootschap zou willen maken, zou dat, de tijd van de voorbereidende werkzaamheden inbegrepen, niet langer duren dan achtentwintig maanden. Concordanties zijn dienstig voor tal van taalkundige (o.m. syntactische) en literaire doeleinden. Hoewel het maken van enigszins uitvoerige woordindices en concordanties als traditioneel handwerk reeds sinds jaren een anachronisme is, verschijnen er ook nu nog dergelijke geheel volgens de traditionele methode samengestelde werken. Zo werd in 1965 in Cambridge (Mass.) een concordantie op de Divina Commedia uitgegeven; hierbij werden de briefjes met context met de hand geschreven en gesorteerd. Nu bezat de Utrechtse lector voor Italiaans, Dr. M.L. Alinei, reeds driejaar geleden het nodige materiaal om een dergelijke concordantie geheel mechanisch in enkele maanden samen te stellen; hij heeft het echter niet gedaan om de Amerikaanse ‘Dante Society’ niet te hinderen. Maar het werk van deze ‘Society’ doet ons een beetje denken aan een boer in Flevoland die zijn akkers alleen maar met de hand zou bewerken.
Ook het lexikografische werk, d.w.z. het maken van woordenboeken, leent zich tot op zekere hoogte tot het aanwenden van automatiseringsmethodes. Een ideaal object op dit gebied is wel het retrograde woordenboek, waarbij niet de eerste maar de laatste letter van het woord het uitgangspunt vormt der alfabetische classificatie. Terwijl een gewoon boek van Aafje tot zymotisch kan lopen, zal een retrograde woordenboek
| |
| |
misschien als eerste woord Saba hebben en als laatste negerjazz. Het met de hand samenstellen van retrograde alfabetische woordenboeken is stomvervelend werk, maar het resultaat is voor de taalkunde - en heus niet alleen voor de taalkunde - bijzonder belangrijk. In 1958 hebben Oost- en West-Berlijn elk hun eigen retrograde woordenboek van de Russische taal gepubliceerd, alles als handwerk! Het retrograde Russische woordenboek van het vrije westen is veel beter dan zijn oostelijke broertje. Dat moest ook wel, want het eerste bewijst belangrijke diensten bij het decoderen van geheime boodschappen van de Sovjetunie! In 1958 waren de Duitse slavisten aan beide kanten van het Gordijn blijkbaar nog niet aan de machine toe. In 1962 heeft M.L. Alinei een Italiaans retrograde woordenboek samengesteld met behulp van de conventionele ponskaartenapparatuur, het eerste in zijn soort. In 1965 verscheen de met behulp van de computer samengestelde Dictionnaire inverse de la langue française van A. Juilland. Een retrograde woordenboek van het Nederlands is nog een desideratum; de talloze bijvormen in onze officiële spelling vormen in dit opzicht niet bepaald een gunstige factor.
Men speelt zelfs met de gedachte om nog een stap verder te gaan dan het retrograde woordenboek, nl. om met behulp van de computer een morfeemwoordenboek samen te stellen. In een dergelijk woordenboek zouden dan de morfemen of kleinste betekenisdragende woordelementen, zoals voorvoegsels (on + diep), achtervoegsels (speel + ster) en de leden der samenstellingen (straat + steen) bij elkaar staan met de verschillende woorden waarin ze voorkomen. Het scheiden der woorden in morfemen is niet altijd zo eenvoudig als in onze voorbeelden. De morfeemgrenzen zullen vermoedelijk ten dele afhangen van iemands taalhistorische kennis. Men probere b.v. provocatie in morfemen te verdelen: pro + vocat + ie? maar misschien zien provo's provocatie wel als een afleiding van hun geuzennaam; dus provo + nog iets? En hoe zou men Prof. Zoutendijks informaat in morfemen moeten verdelen? toch niet als in + forma + (a)at?
Hoe staat het nu met de perspectieven der automatisering van ‘gewoon’ woordenboekswerk? Ik denk hierbij niet aan tweetalige lexica, maar aan de eentalige lexikografie. Het is een feit dat op dit gebied de prestaties van de Germaanse volkeren, en heus niet alleen die van de Engelsen en de Duitsers, gunstig afsteken bij wat in Romaanse landen als Frankrijk, Italië en Spanje werd gepresteerd. Maar op dit ogenblik doet zich hier een merkwaardige verschuiving voor. Terwijl Zweden en de Nederlanden er nog niet in zijn geslaagd hun nationaal woordenboek te voltooien en het gescheiden Duitsland met vereende krachten een supplement op of zelfs misschien een tweede editie van het woordenboek van de gebroeders Grimm samenstelt, heeft de computer thans de Franse en de Italiaanse doornroosjes uit hun lange lexikografische slaap wakker gekust. Men wil te Nancy en te Florence woordenboeken gaan maken die het kunnen opnemen tegen het beroemde historische Engelse woor- | |
| |
denboek van Oxford. Nu weet men in Frankrijk en Italië natuurlijk ook wel, dat zelfs de machtigste computer niet in staat is om een simpel artikel van het woordenboek te schrijven. Maar wat de computer wel kan, is de papieren basis voor zulk een onderneming te leggen. Het woord papieren is hier allesbehalve denigrerend bedoeld. Het werk van de grote nationale woordenboeksondernemingen berust altijd op miljoenen (5 tot 15 miljoen) fiches waarop woorden staan in hun context. De enorme thans bestaande collecties fiches zijn geheel als handwerk tot stand gekomen. Men moet daar niet licht over denken. Het foutloos overschrijven van citaten is moeilijk, voor het begrenzen ervan is taalkennis en taalgevoel vereist, en wie goed gekozen porties tekst correct weet uit te schrijven,
heeft misschien een onleesbare hand. Het zgn. apparaat voor het grote Franse woordenboek van Nancy, zowel als dat voor de thesaurus der beroemde ‘Accademia della Crusca’ te Florence, wil men in zeer korte tijd tot stand zien te brengen op een uniforme manier. Hiervoor doet men een beroep op de computer. Te Nancy heeft men zelfs de beschikking over een eigen rekentuig, de enorme Gamma-60 van Bull. Sinds 1963 werden reeds 35 miljoen woorden in ponsband geponst. De Franse ‘Trésor’ beschikte vorig jaar over een staf van 120 man, maar binnenkort zullen het er 250 zijn. Men stelt zich voor, deze Trésor op te bouwen op basis van 250 miljoen citaten. Het is duidelijk dat men slechts in zulke proporties kan denken als men de computer achter zich heeft. Het is alleen jammer dat thans de machinale middelen nog niet aanwezig zijn om geheel automatisch de invoer van de enorme hoeveelheid basisgegevens (teksten) in de informaat te verwezenlijken. Bij een machine die bewerkingen uitvoert in miljoenste of zelfs miljardste delen van een seconde, is men, merkwaardig genoeg, nog steeds aangewezen op ponstypistes, controleponstypistes en visuele controle, terwijl men gebruik zou moeten kunnen maken van machinaal optisch lezen (eng. optical character recognition). Het is een klacht die ook gehoord wordt van de kant der beoefenaars van de mechanische vertaling. We hebben intussen enige hoop: literaire teksten lenen zich beter tot optisch lezen dan wiskundige of natuurwetenschappelijke verhandelingen met hun grafieken en speciale symbolen.
Rest tenslotte nog de vraag wat er reeds in Nederland op het gebied van de taalkundige automatisering werd verricht. Toen Prof. A. van Wijngaarden in 1952 te Amsterdam zijn inaugurele rede Rekenen en Vertalen hield, wees hij reeds op het samengaan van rekenaar en taalkundige bij de mechanische vertaling, waarvan hij toen meende dat ze ‘binnen afzienbare tijd wezenlijk resultaat’ zou opleveren. In 1961 kon op het Mathematisch Centrum te Amsterdam, waarvan Van Wijngaarden inmiddels directeur geworden was, een begin worden gemaakt met de toepassing der elektronische rekenmachine op het gebied der Nederlandse lexikologie. In de loop van 1961-'62 werd aldaar eveneens begonnen
| |
| |
met een statistisch woordonderzoek over een miljoen woorden der geschreven taal. Hiervan is thans bij wijze van proef een twintigste deel door de computer verwerkt, namelijk 50.000 woorden, die alle berusten op teksten uit in 1956 verschenen dagbladen. Het onderzoek Formal Properties of Newspaper Dutch, waarvoor J.A.Th.M. van Berckel het programma schreef, verscheen in 1965. Er is ook door H. Brandt Corstius een programma ontwikkeld voor het automatisch splitsen der syllaben in het Nederlands, iets wat het automatisch zetten van b.v. krantenkopij mogelijk maakt. Hier volgt het resultaat: ‘Pre-mier De Quay geeft freu-le Wtte-waal eau-de-colog-ne en een skij-um-per’. Het succespercentage was 99%; het programma had helaas evenmin rekening gehouden met de naam van de freule als met haar ski-jumper. Het Mathematisch Centrum verricht veel ‘taal’-onderzoek, in de eerste plaats natuurlijk op het gebied der formele talen (programmeertalen), die de communicatie mens-computer vergemakkelijken. Vandaar naar het formele onderzoek van natuurlijke talen is slechts één stap, zij het ook naar een hoger, moeilijker niveau.
Aan het Instituut voor Italiaanse Taal- en Letterkunde der Utrechtse universiteit werd, op initiatief van M.L. Alinei, een begin gemaakt met het ponsen van alle Italiaanse teksten tussen 960 en 1321, het jaar van Dantes dood. De administratieve computer van de universiteit zorgt voor het verwerken van de in ponskaarten opgenomen gegevens. Als resultaat zijn o.m. indices en een grammaticaal overzicht van het oudste Italiaans te verwachten.
Te Leiden zijn er sinds 1960 pogingen ondernomen om te komen tot een centraal instituut voor Nederlandse lexikologie, waarin het oude ‘Woordenboek der Nederlandsche Taal’ zou worden opgenomen. Aangezien het Rekeninstituut van de universiteit toen nog niet bestond, ging men bij de oorspronkelijke plannen, die de aanschaf van een eigen machinepark noodzakelijk maakten, uit van een gemengd NederlandschBelgisch instituut. Dit is op een teleurstelling uitgelopen. Wil men werkelijk een begin maken met de verwezenlijking van sinds 1960 gekoesterde plannen, dan lijkt samenwerking in het kader van het zich thans in volle ontplooiing bevindende Centraal Rekeninstituut van Prof. Zoutendijk de enige reële mogelijkheid.
F. de Tollenaere
|
|