| |
| |
| |
‘Een mooie manier om taal te beschrijven’
Interview met drie hoogleraren computerlinguïstiek
Peter-Arno Coppen
Het lijkt op de plot van een spannend jongensboek: drie pas afgestudeerde exacte wetenschappers ontmoeten elkaar op een laboratorium van het grote Philips-concern. Ze zetten samen veelbelovend taaltechnologisch onderzoek op. Dan gaan ze uit elkaar, en twintig jaar later zijn ze alle drie hoogleraar computerlinguïstiek aan een Nederlandse universiteit. Hoe werden deze onderzoekers gezichtsbepalers van de taaltechnologie in Nederland? En hoe kijken ze terug op die tijd?
Kan de computer ooit een taalgebruiker worden? Die vraag is al zo oud als de computer zelf. Vlak na de Tweede Wereldoorlog ontstond de overtuiging dat de machine in staat zou moeten zijn willekeurige menselijke taal te begrijpen. Tijdens de oorlog was de computer al met succes ingezet bij de ontcijfering van militaire geheimschriften. Het kraken van de Duitse codes, onder leiding van de Britse computerwetenschapper Alan Turing, zou in belangrijke mate hebben bijgedragen tot de geallieerde overwinning. En was het vertalen van zinnen uit de ene taal in een andere tenslotte niet ongeveer hetzelfde als het ontcijferen van een geheimschrift?
| |
Kunstmatige intelligentie
Tegelijkertijd voltrok zich in de taalwetenschap wat later de ‘Chomskyaanse revolutie’ is gaan heten. De Amerikaanse linguïst Noam Chomsky had een nieuwe vorm van taalwetenschap ontwikkeld, waarin vage regels met honderden uitzonderingen plaats hadden gemaakt voor precieze grammaticaregels in een formele notatie. Grammatica's leken wel computerprogramma's.
Uit die tijd stamt de computerlinguïstiek, de tak van de taalwetenschap die probeert taalkundige grammatica's op de computer te programmeren, zodat die computers in staat zijn natuurlijke taal te verwerken. In Nederland was de Amsterdamse wiskundige Hugo Brandt Corstius (ook bekend als Battus) de eerste computerlinguïst. In zijn eentje schreef hij in de jaren zestig zo ongeveer elk computerprogramma op taalkundig gebied dat toentertijd denkbaar was. Zijn programma om woorden in krantenkolommen af te breken (uit-smijter in plaats van uits-mijter) werd nog tientallen jaren later op de krantenredacties gebruikt.
De jaren zestig waren ook de jaren van de ‘kunstmatige intelligentie’ (of ‘artificial intelligence’, of ‘AI’), de wetenschap die de menselijke intelligentie probeerde na te bootsen op de computer. Kon de computer tot dezelfde redeneringen komen als de mens? Kon je het nemen van (eenvoudige) beslissingen aan machines overlaten? Getuige de nieuwste film van Steven Spielberg, A.I. Artificial Intelligence, hebben deze vragen nog niets aan actualiteit ingeboet.
| |
Niet te naïef
Het was in deze turbulente periode dat drie pas afgestudeerde exacte wetenschappers aan het begin stonden van hun carrière. Harry Bunt en Remko Scha studeerden natuurkunde, Jan Landsbergen was wiskundige. Min of meer bij toeval kwamen ze na hun studie rond 1970 alle drie terecht bij Philips Computer Industrie in Apeldoorn. Landsbergen: ‘Dat was een zeer ambitieuze onderneming met computerbouwers en softwareontwikkelaars, en zelfs een eigen onderzoeksgroep, al mocht dat niet zo heten, want onderzoek hoorde thuis in Eindhoven, op het “Natlab”, het Natuurkundig Laboratorium van Philips. En inderdaad werd ons onderzoek al na vrij korte tijd van Apeldoorn naar Eindhoven overgeplaatst.’
Bunt was de eerste: ‘Ik kwam, nog voor mijn afstuderen, eens op een studentenexcursie op bezoek bij Philips, en daar sprak ik met iemand over kunstmatige intelligentie. Die vroeg of ik niet een onderzoeksgroepje op dat gebied wilde beginnen, om eens te kijken wat dat voor Philips zou kunnen betekenen. Dat leek me een geweldige uitdaging, en dat heb ik toen gedaan.’
Na Bunt kwam Scha: ‘Tijdens mijn studie natuurkunde in Eindhoven liep ik stage op het Instituut voor Perceptie-onderzoek (het IPO), waar ik kennismaakte met fonetiek en signaalverwerking. Verder deed ik specialisaties waar in die tijd nog geen aparte opleidingen voor bestonden: informatietheorie, computerprogrammeren, theorie van formele talen. Vanuit die interesse kwam ik in Apeldoorn terecht. Korte tijd later diende Jan Landsbergen zich aan.’
Landsbergen maakte zo het trio compleet: ‘Ik was de enige van de drie die zich tijdens zijn studie al met taalkunde had beziggehouden en ik zag het als mijn eerste taak erop te wijzen dat je niet te naïef moest denken over het gebruik van natuurlijke taal.’
| |
| |
| |
‘Een prachtig systeem’
Jan Landsbergen: ‘Als theoretisch linguïst heb je al snel het idee dat je een taal beschreven hebt, maar als taaltechnoloog word je met een geweldige variatie geconfronteerd.’
Maar wat wilde men in die tijd eigenlijk bij Philips? Wat stelde men zich voor van een onderzoeksgroepje dat zich met kunstmatige intelligentie moest bezighouden? Landsbergen: ‘De meest relevante toepassing voor het bedrijf leek op dat moment de ontwikkeling van een systeem voor het halen van informatie uit een gegevensbestand. Je moet je voorstellen dat er in die tijd nog geen geavanceerde databasesystemen bestonden waarin je allerlei gegevens zo kon opslaan dat je er gemakkelijk vragen over kon stellen. Als je bijvoorbeeld een bestand had over computers bij Europese bedrijven, en je wilde weten welk bedrijf de meeste IBM-computers gebruikte, dan moest je die vraag inleveren bij een speciale databasebeheerder. Die ging dan een programma schrijven in een aparte computertaal, en na een week of twee kon je dan antwoord verwachten. Dat proces zou aanmerkelijk versneld kunnen worden met een computersysteem dat je vraag rechtstreeks in natuurlijke taal zou begrijpen.’
Harry Bunt: ‘In de communicatie met de computer zie je steeds vaker dat er verschillende kanalen (toetsenbord, spraak, muis, aanraakscherm) tegelijk gebruikt moeten worden.’
Foto: Ben Bergmans
Zo ontstond het idee voor het vraagantwoordsysteem PHLIQA, een (volgens Landsbergen) lelijk acroniem dat stond voor ‘Philips Question Answering’. Dit computerprogramma accepteerde vragen in een natuurlijke taal (door het multinationale karakter van Philips lag het Engels voor de hand) en kon het antwoord op zulke vragen automatisch berekenen. (In het kader op de volgende bladzijde wordt de werking van dat systeem nader toegelicht.) Nu nog kijken de drie onderzoekers met veel plezier terug op de eerste versie van PHLIQA. Bunt spreekt over ‘mooi onderzoek’, en Scha is bijna lyrisch: ‘Het was een prachtig systeem, nog steeds een van de betere vraagantwoordsystemen die er bestaan. Het zit helder in elkaar.’
| |
Onontgonnen terrein
Het einde van het PHLIQA-project, eind jaren zeventig, was ook het einde van het driemanschap Bunt-Scha-Landsbergen. Bunt vertrok naar het IPO, waar hij een onderzoek opzette op het gebied van mens-machinecommunicatie. De dialoog tussen mens en computer was in die tijd nog vrijwel onontgonnen terrein. Bunt: ‘Dat dialoogonderzoek, daar zag ik aanvankelijk niets in. Zo'n vraag-antwoordsysteem als PHLIQA was al moeilijk zat! Een theorie voor ingewikkelde dialogen leek me helemaal hopeloos. Het duurde een tijdje voor ik daar brood in zag. Maar tegenwoordig, sinds ik aan de Katholieke Universiteit Brabant werk, zie ik die dialoogtheorie als mijn voornaamste onderzoeksterrein. Met name de verschillende kanalen die je in de communicatie tussen mens en computer kunt onderscheiden (beeld, geluid, knoppen) hebben momenteel mijn belangstelling.
Remko Scha: ‘Om een computer spraak te laten begrijpen, moet je de waarschijnlijkheid berekenen van wat er gezegd wordt.’
Foto: Ronald Sweering
Ook Scha verruilde Eindhoven voor een andere werkplek: ‘Ik ben eerst nog een jaartje gasthoogleraar sociaal-wetenschappelijke informatica geweest aan de Universiteit van Amsterdam. Maar in Amerika kon ik een vaste baan krijgen bij het bedrijf Bolt, Beranek & Newman in Cambridge. Dat was eigenlijk een uit zijn voegen gebarsten bureautje van drie akoestisch ingenieurs, dat zich bezighield met het doorrekenen van concertzalen en met onderwaterakoestiek. Via militaire toepassingen waren ze in de computerwetenschap terechtgekomen. Als hoofd van het “AI department”, en later het “Speech department”, heb ik nog goede sier gemaakt met PHLIQA1, met een paar innovaties erin. Maar ik heb me in die tijd vooral beziggehouden met “discourse”, de theorie van taal in context, en met het verwerken van spraak. Om een computer spraak te laten begrijpen, moet je de waarschijnlijkheid berekenen van wat er gezegd wordt. Mijn idee was om die statistiek ook toe te passen bij de verwerking van geschreven taal. Dat noemde ik “data oriented parsing”, en daar werk ik nu nog steeds aan op de Universiteit van Amsterdam.’
| |
Rosetta
Landsbergen was de enige van de drie die op het Natlab werkzaam bleef. Daar zette hij het invloedrijke Rosetta-project op, dat gedurende de jaren tachtig een automatische vertaling nastreefde tussen verschillende talen. De naam Rosetta was geïnspireerd op de legendarische steen van Rosette (in het Engels Rosetta Stone), met een drietalige inscriptie die uiteindelijk de ontcijfering van het hiërogliefenschrift mogelijk maakte. Ook het Rosetta-project begon met drie talen: Engels, Spaans en Nederlands. ‘Net als bij het PHLIQA-project hechtten we daarbij veel waarde aan een doorzichtig systeemontwerp en waren onze analyses gericht op de betekenis van de zinnen. Dat was niet zo vanzelfsprekend als het lijkt. Veel systemen in die tijd bestonden uit een ondoorzichtige combinatie van deelprogramma's, en er werd meer naar de vorm dan naar de betekenis van de zinnen gekeken.’
Net als het PHLIQA-systeem leidde het Rosetta-project niet tot concrete producten (de vertaalcomputertjes die in die tijd op de markt kwamen, waren niet meer dan veredelde woordenboekjes), maar het gaf richting aan een belangrijk deel van het fundamentele onderzoek.
Landsbergen: ‘Ik ben nooit een liefhebber geweest van het gebruik van statistische methoden bij taalverwerking. Op het IPO, waar ik vanaf 1991 door Philips gedetacheerd was, heb ik me vooral beziggehouden met het genereren van gesproken taal, een van de laatste gebieden waar die statistiek nog niet haar intrede heeft gedaan.’
| |
Trends
Bunt, Scha en Landsbergen bepaalden in de afgelopen dertig jaar voor een belangrijk deel het gezicht van het meer fundamentele onderzoek. Hun eigen onderzoek leidde niet meteen tot concrete toepassingen, maar ze hebben zeker hun invloed gebruikt om de aandacht voor taal- en spraaktechnologisch onderzoek te vergroten. Het is mede aan hun inspanningen te danken dat er in de afgelopen jaren met overheidssubsidie concrete toepassingen zijn ontwikkeld, zoals het geautomatiseerde ‘Openbaar Vervoer Reisinformatie’. Daarmee kun je via telefoonnummer 0900 - 9292 van een luisterende en sprekende computer te horen krijgen hoe laat je trein vertrekt.
Gezien hun carrière hebben deze drie hoogleraren als geen ander zicht op het taal- en spraaktechnolo- | |
| |
gisch onderzoek van de laatste dertig jaar. Wat waren daarin volgens hen de belangrijkste trends? Landsbergen: ‘Begin jaren zeventig, na het debacle van het Amerikaanse onderzoek naar automatisch vertalen, was QA (“Question Answering”) de populairste toepassing. Men dacht de problemen uit het vertaalonderzoek te kunnen omzeilen door te werken met “miniwereldjes”, beperkte contexten waarvoor het systeem alle informatie in huis zou hebben. Vanuit onderzoeksstandpunt was dit wel een nuttige inperking, maar er is nooit bewezen dat gebruikers in staat zijn zich tot zo'n miniwereld te beperken.’
| |
Gezichtsuitdrukking
Landsbergen ziet in de jaren tachtig een paar parallelle trends: ‘Het QA-onderzoek kreeg concurrentie van de zogeheten grafische interfaces: het gebruik van de muis of het aanraakscherm om velden op een scherm aan te wijzen was in veel gevallen eenvoudiger dan het intikken van een hele vraag, die ook nog eens niet al te moeilijk mocht zijn omdat het systeem het al snel liet afweten.’
‘Daarnaast ontstond er in dat decennium veel aandacht voor spelling- en grammaticacontrole, en, vooral in Japan en de Europese Unie, een hernieuwde belangstelling voor automatisch vertalen. Los van het praktische nut leverde dat gewoon een prachtig kader voor onderzoek van allerlei aspecten van taal.’
‘In de laatste tien jaar is er sprake van een opleving van de QA-systemen, maar nu in de vorm van gesproken-dialoogsystemen (zoals het OV-reisinformatiesysteem, maar er zijn ook kleinere systemen ontwikkeld, bijvoorbeeld voor schouwburgreservering). De dialoog wordt door het systeem onder controle gehouden. Dat is nodig voor het herstellen van fouten in de spraakherkenning. Ook dwing je de gebruiker daarmee om binnen het miniwereldje van het systeem te blijven.’
Bunt constateert de laatste tijd een sterke aandacht voor ‘multimodaliteit’: ‘Het gaat dan om de verschillende kanalen die je bij de communicatie inzet: gezichtsuitdrukking ter ondersteuning van de dialoog, of een combinatie van gebaar en gesproken woord. Ook in de communicatie met de computer zie je steeds vaker dat er verschillende kanalen (toetsenbord, spraak, muis, aanraakscherm) tegelijk gebruikt moeten worden.’
| |
Het PHLIQA-systeem
Wat was nu eigenlijk dat beroemde PHLIQA-systeem? Hoe zat het in elkaar? Jan Landsbergen: ‘Om Philips gunstig te stemmen (en omdat het ons verder niet uitmaakte) hadden we een gegevensbestand bij elkaar gezocht over computers bij Europese bedrijven. Daar kon je dan een Engelse vraag aan stellen als “What IBM computers are there in France?”, en dan kreeg je een tamelijk kort lijstje, want dat waren er toen nog niet zo veel, althans niet voorzover wij wisten. Of je vroeg: “Does AKZO have more line printers than Shell?”, wat na lang rekenen het antwoord “Yes” opleverde.’
‘In de hoek van de kunstmatige intelligentie was de trend in de jaren zeventig om systemen te maken waarin de verschillende benodigde soorten kennis op een ondoorzichtige wijze werden “geïntegreerd”. Wij hechtten juist veel waarde aan een helder ontwerp. De Engelse vraag werd eerst door een zuiver taalkundige component omgezet in een logische taal en daarna in een aantal stappen, afhankelijk van het onderwerpgebied en de manier waarop de gegevens in de computer stonden, vertaald naar een speciale computertaal. Dat werd toen een beetje ouderwets gevonden, maar later, toen bleek dat die geïntegreerde systemen tot een onoverzichtelijke warboel hadden geleid, kregen we hiervoor wel de nodige erkenning.’
‘Je moet je voorstellen dat voor het PHLIQA-programma in die tijd 480 kB geheugen nodig was. Het draaide op de centrale computer van het Natlab en nam dan ongeveer het hele systeem in beslag. Als wij een demonstratie gaven, mocht verder niemand de computer gebruiken. Dat kun je je nu moeilijk meer voorstellen. Tegenwoordig heeft een gewone pc al gauw driehonderd keer zo veel geheugen.’
‘Na een paar jaar hadden we samen met enkele bekwame informatici echt iets ontwikkeld dat bleek te werken. Op het Natlab waren ze daar nog oprecht verbaasd over. Maar Philips was inmiddels bezig zich uit de computerindustrie terug te trekken en er waren geen productlijnen waar ons mooie systeem in paste. Toen is het project gestopt.’
| |
Vreemdetalenonderwijs
Ook al kwamen de drie Philips-hoogleraren terecht op leerstoelen met namen als ‘Alfa-informatica’ en ‘Taal en informatica’, eigenlijk bleef zowel Bunt als Scha als Landsbergen zich op het terrein van de computerlinguïstiek bewegen. Elk ging daarbij zijn eigen weg, die in het verlengde van het oorspronkelijke PHLIQA-onderzoek lag. Bunt specialiseerde zich in de dialoogtheorie, de relatie tussen taal, context en gespreksdeelnemers (waaronder de computer). Scha verdiepte zich vooral in de manier waarop een computer gebruik zou kunnen maken van de waarschijnlijkheden in de taal, ook in relatie tot de context. En Landsbergen werkte het vertaalontwerp van het PHLIQA-systeem verder uit voor de automatische vertaling tussen natuurlijke talen.
Alleen Landsbergen is sinds kort met emeritaat. Bij wijze van hobby geeft hij Nederlands aan immigranten. ‘Daarvoor had ik altijd al belangstelling. Weinig mensen weten dat het mijn oorspronkelijke bedoeling was om het Rosetta-systeem in te zetten in het vreemdetalenonderwijs. Daar kwam niet veel van terecht omdat dat onderwijs in dezelfde tijd overging op meer natuurlijke en eentalige methoden waarin voor vertalen geen plaats was.’
Alle drie de onderzoekers kijken tevreden terug op hun carrière. Maar ze vinden het ook een beetje spijtig dat het mooie PHLIQA-onderzoeksproject nooit verder is ontwikkeld. Landsbergen: ‘Een van onze doelstellingen (en van veel collega's) is geweest het vinden van een mooie manier om natuurlijke talen goed te beschrijven. Die is nog niet gevonden. Omdat we pas sinds kort de adequate middelen hebben om dit onderzoek uit te voeren, is het te vroeg om te zeggen dat het nooit zal lukken, maar ik ben niet zo optimistisch. Als theoretisch linguïst heb je al snel het idee dat je een taal beschreven hebt, maar als taaltechnoloog word je met een geweldige variatie geconfronteerd.’
Behalve van oorspronkelijk materiaal is in deze tekst gebruikgemaakt van drie interviews met de betrokken personen, gepubliceerd in het Nederlandse studentenblad voor computationele taalkunde Ta! Het betreft de volgende drie publicaties: ‘Remko Scha, hoogleraar alfa-informatica: “Dat ik het op deze manier waar zou maken, heeft niemand kunnen voorzien”’, door Benoît Schaaf (Ta!, jaargang 1, nummer 2), ‘Harry Bunt, hoogleraar Taal en Informatica: “Het nabootsen van een computer door een mens is haast net zo moeilijk als het nabootsen van een mens door een computer”’, door Anne-Marie Mineur (Ta!, jaargang 1, nummer 3), en ‘Jan Landsbergen: “Natuurlijke taal is best te formaliseren, maar kennis van de wereld is niet te modelleren met behulp van digitale machines”’, door Erik Oltmans (Ta!, jaargang 2, nummer 4).
|
|