Onze Taal. Jaargang 70 (2001)

Onze Taal. Jaargang 70

(2001)– [tijdschrift] Onze Taal– rechtenstatus

Auteursrechtelijk beschermd

Vorige Volgende



[pagina 291]
De computer leert lezen Automatische tekstsamenvatting en de betekenis van woorden Wilbert Spooren - Vrije Universiteit Amsterdam In het bekende tekstverwerkingsprogramma Word zit een knop om een tekst automatisch samen te vatten. Daar komt zelden iets bruikbaars uit. Maar er is een nieuwe wetenschappelijke ontwikkeling op dit gebied: de ‘latente semantische analyse’. Biedt die uitkomst? Een bericht uit de frontlinie van de taaltechnologie. Interessant nieuws laatst, op de radio: na de Encyclopaedia Britannica gaat nu ook Winkler Prins weer een papieren editie van zijn encyclopedie uitbrengen, omdat de cd-rom en de webversie toch niet zo goed bevallen. De tekenen zijn dus niet meer zo eenduidig als tot voor kort, toen alles erop wees dat de digitale revolutie het einde van het papieren boek zou betekenen. Toch zet menigeen zijn geld nog steeds op het belang van digitale informatie voor het functioneren van de samenleving, nu en in de toekomst. En dat heeft vooral te maken met de hoeveelheid informatie, die snel toeneemt.
Infofarct Steeds meer informatie komt dus dagelijks in digitale vorm tot onze beschikking. Het prominentste voorbeeld daarvan is de informatie op internet (geschatte omvang in 1998: 15 miljard woorden en sindsdien elke dag enorm gegroeid), maar ook de invloed van de tekstverwerker mag niet onderschat worden. Bijna iedereen heeft de beschikking over een computer en produceert daarmee elke dag nieuwe teksten. We naderen wat wel het tijdperk van het ‘infofarct’ genoemd wordt: we dreigen om te komen in de informatie. Het ligt dus voor de hand dat wetenschappers en automatiseerders op zoek zijn naar nieuwe middelen om die gigantische bergen informatie te verwerken. Een van die middelen is het automatisch samenvatten van een tekst. Hoe makkelijk zou ons leven niet worden als de computer geheel automatisch een samenvatting zou kunnen produceren, zodat we niet meer de hele tekst hoeven door te nemen om te weten of hij voor ons van belang is? En zie, dat roze toekomstbeeld lijkt al werkelijkheid. De tekstverwerker Word stelt je in staat een automatische samenvatting te maken van documenten (in de Nederlandse Word 2000-versie onder ‘Extra’, en dan ‘Autosamenvatting’). Vooralsnog werkt dit onderdeel alleen bij Engelstalige documenten.
Onneembare horde Maar niet te vroeg gejuicht, want wie deze functie weleens gebruikt heeft, weet hoe verbluffend slecht die Word-samenvatter werkt. De vijf belangrijkste redenen daarvoor staan in het kader op de volgende bladzijde. Op elk van de daar genoemde vijf punten heeft een tekstverwerker als Word grote problemen. Bij elkaar vormen ze een schier onneembare horde voor zelfs het slimste computerprogramma. Waar het op neerkomt, is dat de huidige computer geen idee heeft van de aard en inhoud van een tekst. De manier waarop Word toch probeert een samenvatting van de tekst te maken, is ruwweg als volgt: het programma bekijkt welke woorden in de tekst voorkomen en hoe vaak ze voorkomen. Vervolgens worden de zinnen geïdentificeerd waarin de vaakst voorkomende woorden zitten. Als je om een samenvatting van tien zinnen hebt gevraagd, selecteert Word de tien zinnen met de meest voorkomende woorden, en dat is dan de ‘samenvatting’.
Wereldkennis Nu zijn er ontwikkelingen in de wetenschap die de automatische tekstsamenvatter een klein stapje dichterbij kunnen brengen. Eén zo'n nieuwe ontwikkeling ligt op het terrein van de zogeheten inhoudsanalyse. Computers kunnen tegenwoordig vrij aardig bepalen waar een tekst over gaat. Dat komt door hun gigantische opslagmogelijkheden en enorme rekenkracht, en doordat ze gebruikmaken van slimme rekenmethodes. Zo'n inhoudsanalyse is een eerste, belangrijke horde op weg naar een automatische samenvatting. Maar wat houdt het precies in? Wie aan inhoudsanalyse doet, probeert er op systematische wijze achter te komen wat de inhoud van een tekst is. Als de computer dat probeert te doen, spreken we van automatische inhoudsanalyse. Op het eerste gezicht lijkt inhoudsanalyse van een tekst overbodig: als we een tekst lezen, is het immers vanzelfsprekend meteen duidelijk waar die tekst over gaat? Toch blijkt bij de bestudering van zelfs het eenvoudigste voorbeeld dat taalgebruikers enorme hoeveelheden kennis van de wereld aanspreken. Zie het volgende voorbeeld:
[pagina 292]
Greenpeace heeft in het Zuid-Duitse Beieren een nucleair transport verstoord. Demonstranten ketenden zich vast aan de rails. (De Telegraaf, 10 april 2001) Als taalgebruikers hebben we geen enkele moeite om dit tekstje te begrijpen: Greenpeace heeft het transport verstoord dóórdat demonstranten zich vastketenden aan de rails. Toch ligt aan deze conclusie een uitgebreide, maar onbewuste redenering ten grondslag: zo moeten we aannemen dat de demonstranten leden van Greenpeace zijn, dat het nucleaire transport een transport per trein behelsde, dat de plaats waar de demonstranten zich vastketenden onderdeel is van het traject van het transport en dat het moment van vastketenen samenviel met het transport. Geen van die feiten staat in de tekst, maar schijnbaar zonder enige moeite verrijken we de informatie die wel in de tekst staat op grond van onze wereldkennis. Het probleem voor de computer is onder meer dat hij die kennis meestal niet bezit of dat hij er niet in slaagt om die op het juiste moment te gebruiken.
Waarom samenvatten zo moeilijk is 1. De samenvatter moet weten waar de tekst over gaat. Schrijvers houden niet van woordherhalingen. Voor de variatie gebruiken ze daarom vaak synoniemen en omschrijvingen. De samenvatter moet weten dat in zo'n geval de tekst nog steeds over hetzelfde begrip gaat. 2. De samenvatter moet weten wat de structuur van de tekst is. Een zin kan iets zeggen over het hoofdonderwerp van een tekst of over een deelonderwerp. Zinnen over het hoofdonderwerp zijn belangrijker dan zinnen die iets zeggen over een deelonderwerp. Alleen belangrijke zinnen horen in een samenvatting thuis. 3. De samenvatter moet weten wat de schrijver met de tekst wil bereiken. De volgende passage kan voor heel verschillende doelen gebruikt worden: ‘Met de komst van de oliepijplijn van Rotterdam naar het Roergebied veranderde de situatie. Nu was het niet langer nodig de olie in lange treinstellen te vervoeren. Daardoor werd de aanleg van een Betuwelijn goeddeels overbodig.’ In een tekst over de ontwikkelingen van de Rotterdamse haven sinds 1945 is de eerste zin de belangrijkste, want die schetst wat de nieuwe situatie is. In een tekst over de oorzaak van de mislukking van het Betuwelijnproject is de laatste zin het belangrijkst. Om te weten wat de structuur van de tekst is, moet je dus weten welk doel de schrijver voor ogen had met zijn tekst. 4. De samenvatter moet rekening houden met het genre waartoe de tekst behoort. In een nieuwsbericht wordt alle belangrijke informatie in de eerste alinea gestopt, in een wetenschappelijk artikel staat alle belangrijke informatie in de inleiding en de conclusie, in een advertentie is de belangrijke informatie steevast ‘Koop mij’ en in een roman zijn alle onderdelen even belangrijk. Om vast te kunnen stellen wat belangrijke informatie is, moet de samenvatter dus weten tot welk genre de tekst behoort. 5. De samenvatter moet zelf ook kunnen formuleren. Geen enkele leraar zou een samenvatting accepteren die uit een herhaling van de woorden uit de oorspronkelijke tekst bestaat. Een goede samenvatting is vanzelfsprekend een herformulering van de oorspronkelijke tekst. Ontleend aan: W. Spooren, ‘Vijf redenen waarom automatische tekstsamenvatting zo moeilijk is’. In Tekst[blad], september 1999.
Betekeniswolken Een nieuwe methode om een analyse van de betekenis van een tekst te maken is de ‘latente semantische analyse’ (LSA), die ontwikkeld is door Thomas Landauer van de University of Colorado in Boulder (in samenwerking met Susan Dumais, die inmiddels bij Microsoft werkt). Het uitgangspunt van deze methode is dat de betekenis van een woord bepaald wordt door naburige woorden: woorden die vaak in de omgeving van dat woord voorkomen. Het LSA-programma verwerkt een tekstcorpus (een verzameling teksten) dat bestaat uit vele miljoenen woorden, en zet de woorden uit in een zogeheten wiskundige ruimte, waarin woorden die in betekenis verwant zijn dicht bij elkaar komen te staan, terwijl niet-verwante woorden ver van elkaar staan. Staan bijvoorbeeld de woorden natuur en bos in veel teksten dicht bij het woord gezondheid, dan wordt ook hun onderlinge afstand in de wiskundige ruimte klein. Staan in andere teksten natuur en bos dicht bij Greenpeace, dan is op dezelfde manier ook de afstand tussen natuur, bos en Greenpeace klein. Maar op die manier is er ook een verborgen verband tussen Greenpeace en gezondheid ontstaan. Zo worden een soort betekeniswolken gevormd, clusters van woorden in een abstracte ruimte die verwante betekenissen hebben of die gemakkelijk met elkaar geassocieerd worden. Omdat niet alle woorden die naast elkaar in een tekst staan qua betekenis verwant zijn, en omgekeerd niet alle betekenisverwante woorden altijd dicht bij elkaar staan, moeten nog wel de toevalligheden uit de wiskundige ruimte verwijderd worden. Dat gebeurt door het ‘indikken’ van de betekeniswolken. Om bij het Greenpeace-voorbeeld te blijven: woorden die nauw met Greenpeace geassocieerd zijn, maar niet in de tekst voorkomen, zijn natuur, actiegroep en dergelijke, terwijl woorden als Beieren en verstoord toevallig in deze tekst wel dicht bij Greenpeace staan maar er wat betekenis betreft weinig mee te maken hebben. Om dit soort toevallige buurwoorden te verwijderen, worden weinig voorkomende associaties verwijderd, via een ingewikkelde wiskundige operatie. Ieder woord in het corpus van miljoenen woorden is nu identificeerbaar door de coördinaten van het woord in de ruimte. Woorden die verwant zijn, hebben verwante coördinaten.
Digitale docent Zo'n uitgebreide inventarisatie van de betekeniswolken van woorden opent perspectieven voor allerlei toepassingen. Zo kun je op basis van de woorden in een tekst uitspraken doen over woorden die niet in die tekst voorkomen: als in een tekst over Greenpeace het woord natuur niet voorkomt, zal de associatie met dat woord zich toch opdringen. Zo doet de computer iets wat volgens sommige psychologen lijkt op wat er in de menselijke geest gebeurt. Op grond van ervaring met eerdere teksten weet hij dat woorden als Greenpeace en natuur met elkaar verwant zijn. De verborgen betekenisverwantschappen (vandaar het woord latente in latente semantische analyse) zijn in de analyse blootgelegd. Volgens de ontwerpers kan LSA ook ingezet worden bij de automatische beoordeling van teksten, als een soort digitale docent. Dat kan als volgt in zijn werk gaan. Een leraar geeft zijn studenten de opdracht om een werkstuk te schrijven. Het LSA-programma kan vervolgens gevoed worden met voorbeeldwerkstukken van verschillend niveau. Op basis van een vergelijking van hun betekenisanalyses kan de computer van elk nieuw werkstuk bepalen met welk voorbeeldwerkstuk het de meeste overeenstemming vertoont. Dat bepaalt het cijfer.
[pagina 293]
Dat lijkt een onwaarschijnlijke toepassing. Iedere leraar zal zeggen dat voor de kwaliteit van een werkstuk veel meer zaken van belang zijn dan alleen de inhoud: een goede argumentatie, schrijfconventies, vloeiendheid van stijl en uitdrukkingswijze. Toch blijkt uit onderzoek dat de beoordelingen door de LSA-computer heel sterk overeenstemmen met die van menselijke experts.
Kritiek De latente semantische analyse is een interessante ontwikkeling in de taaltechnologie, die verrassende toepassingen oplevert. Sommige taalwetenschappers wijzen echter op de tekortkomingen van de methode: voor hen is het nog maar de vraag of deze vorm van betekenisanalyse iets zegt over de echte betekenis van woorden, of de manier waarop de mens de taal gebruikt. Zo wordt de betekenis van een woord ook bepaald door de synoniemen of antoniemen (tegengestelden) van dat woord. En vooral antoniemen hoeven er niet bij in de buurt te staan. Ook is de LSA-methode momenteel nog ongevoelig voor de volgorde waarin de woorden in elkaars nabijheid staan, en wordt er nog geen rekening gehouden met verschillende talen. De ontwikkelaars van LSA pareren deze kritiek echter weer door erop te wijzen dat ook mensen, net als het LSA-programma, geleidelijk de betekenis van woorden aanleren door te ervaren met welke andere woorden ze vaak voorkomen. Hoe kan LSA nu gebruikt worden bij automatische samenvatting? Daar wordt momenteel volop aan gewerkt. Door een betekenisanalyse van de tekst kunnen in elk geval de woorden worden aangegeven die zeker in de samenvatting thuishoren. Maar de computer kan ook een gemaakte samenvatting weer controleren. Dat kan door de betekenisanalyse van de oorspronkelijke tekst te vergelijken met die van de samenvatting, en te bepalen hoeveel die op elkaar lijken. Dat laatste heb ik gedaan met een Engelse tekst over propaan. Ik liet Word een automatische samenvatting maken, en deze door de LSA-computer met de oorspronkelijke tekst vergelijken. Op alle punten beoordeelde het LSA-programma de samenvatting als volstrekt onvoldoende. Illustratie: Matthijs Sluiter Van een volautomatische samenvatting zijn we dus nog ver verwijderd. Maar we zijn wél al zover dat de computer zichzelf op de vingers kan tikken. En op dit moment wordt er nog druk gezocht naar andere toepassingen van deze vorm van automatische inhoudsanalyse.

Vorige Volgende

Over dit hoofdstuk/artikel

auteurs

Wilbert Spooren

illustratoren

Matthijs Sluiter