| |
| |
| |
Elke wetenschapper taalwetenschapper?
Niet-taalkundigen halen het nieuws met taalkundig onderzoek
Berthold van Maris
Taalkundig onderzoek wordt opmerkelijk genoeg steeds vaker gedaan door economen, natuurkundigen en andere wetenschappers. Ze voeren dat uit met het enorme aantal tekstbestanden dat Google voor iedereen toegankelijk heeft gemaakt. De uitkomsten zijn vaak origineel en halen de media - maar taalkundigen fronsen er hun wenkbrauwen bij.
Illustratie: Frank Dam
Er is in wetenschappelijke tijdschriften de laatste tijd geregeld aandacht voor taalkundige onderzoekjes met verrassende, leuke en soms ook gekke uitkomsten. Het bijzondere is dat deze onderzoekjes meestal niet door taalkundigen gedaan zijn, maar door psychologen, economen, natuurkundigen of computerwetenschappers.
Zo ontdekte de Amerikaanse psycholoog Daniel Casasanto dat woorden waar vooral letters in zitten die links op het toetsenbord te vinden zijn, gemiddeld genomen een negatievere betekenis hebben dan woorden met vooral letters die rechts op het toetsenbord zitten. Ook was er een econoom, Keith Chen, die een statistisch verband had ontdekt tussen de manier waarop talen de toekomende tijd uitdrukken en de neiging om geld te sparen. Mensen die een taal spreken waarin in de tegenwoordige tijd over de toekomst kan worden gesproken - zoals in het Nederlands het geval is (‘Ik doe het morgen’) - zouden gemiddeld genomen meer geld op hun spaarrekening hebben staan.
Al die conclusies kregen in kranten en op internet nogal wat publiciteit. Maar uit de taalwetenschap klonk veel kritiek: op de onderzoeksmethoden die gebruikt werden, én op het feit dat veel van dit type onderzoek niet lijkt te worden gehinderd door al te veel inzicht in wat taal nu eigenlijk is.
| |
■ Seksuele revolutie
Dat er opeens zo veel niet-taalkundigen zijn die zich op taal storten, heeft vooral te maken met de astronomische hoeveelheden tekst die er nu beschikbaar komen via het internet, en die pijlsnel doorzocht en geanalyseerd kunnen worden. En dan met name het project Google Books, waarin inmiddels vijf miljoen boeken gedigitaliseerd zijn - ongeveer vier procent van alle boeken die er sinds de uitvinding van de boekdrukkunst verschenen zijn. Een groot deel van dat materiaal kan direct op woordfrequentie doorzocht worden, via de zogeheten Ngram Viewer.
Iedere leek kan daar zelf een beetje mee experimenteren, op de website Books.google.com/ngrams. Je kunt bijvoorbeeld in al het Engelstalige materiaal uit de periode van 1800 tot 2000 zoeken naar hoe vaak het woord war voorkomt in de teksten. Je krijgt dan binnen een paar seconden een fraaie grafiek te zien die van 1800 tot 2000 loopt, met daarin twee duidelijke pieken: de Eerste en de Tweede Wereldoorlog.
Typ je orgasm in, dan zie je dat het gebruik van dat woord in die Engelstalige boeken vanaf 1900 voorzichtig begon te stijgen, en dat die stijging vanaf 1962 opeens heel snel ging en een hoogtepunt bereikte in 1976. Er is niet veel fantasie voor nodig om daar de seksuele revolutie in weerspiegeld te zien.
| |
| |
Ook kun je een serie opeenvolgende woorden intypen (maximaal vijf). Je kunt bijvoorbeeld tellen hoe vaak he said en she said voorkomen, en dan laat de Ngram Viewer de verhouding tussen die twee zien. Het aandeel van she said is in twee eeuwen tijd langzaam en gestaag toegenomen, maar nog steeds komt he said vijftig procent meer voor dan she said. Dat vertelt natuurlijk iets over de rolverdeling tussen man en vrouw.
| |
■ Culturomics
Wetenschappers hebben nu het idee dat je op deze manier veel te weten kunt komen over historische en culturele ontwikkelingen. Er zou zelfs een nieuwe vorm van geesteswetenschappen uit kunnen ontstaan en daar is ook al door sommigen een term voor bedacht: culturomics.
De Amerikaanse psychologe Patricia Greenfield gebruikte de Ngram Viewer bijvoorbeeld om naar een aantal alledaagse werkwoorden te zoeken die iets zouden kunnen vertellen over gemeenschapszin versus individualisering. Zij ontdekte dat het gebruik van give, act en obliged de afgelopen twee eeuwen afnam, terwijl het gebruik van get, feel en choose toenam. Volgens haar weerspiegelt dat de toenemende individualisering in landen als Engeland en Amerika.
Al snel klonk in de media echter kritiek van diverse taalkundigen, die vinden dat Greenfield een te simpel idee heeft van wat een woord is. In haar zoekacties wordt namelijk alleen maar gekeken naar reeksen toetsenbordtekens met spaties (of leestekens) eromheen, zoals give. Er wordt van uitgegaan dat dat een werkwoord is dat een transactie beschrijft: iets geven aan iemand anders. Maar give heeft ook andere betekenissen en komt bovendien voor in allerlei vaste uitdrukkingen die niks met transacties te maken hebben: ‘I don't give a damn’, ‘Let's give it a try’, etcetera.
Veel woorden hebben meerdere betekenissen en als je naar een bepaalde betekenis zoekt, kan de computer die alleen opsporen met een programma dat ook naar de woorden eromheen kan kijken. Dat kan met de Ngram Viewer maar heel beperkt. Je kunt daar alleen zoeken naar woorden die direct op elkaar volgen (maximaal vijf), maar (nog) niet naar woorden die bij elkaar in de buurt staan (bijvoorbeeld binnen dezelfde zin of dezelfde alinea).
En verder is het zo dat de betekenis vaak in een deel van het woord zit (in giving en gives zit de betekenis in giv-) of in een combinatie van woorden (waar give a try een voorbeeld van is). Voor de taalkundigen is dat gesneden koek. Maar in het onderzoek van Greenfield worden dergelijke subtiliteiten genegeerd, waardoor haar aanpak dus te simpel is.
| |
■ Geen vrolijke stemming
Drie antropologen en een computerwetenschapper - afkomstig van verschillende universiteiten uit Groot-Brittannië - publiceerden eerder dit jaar over hun onderzoek naar het gebruik van emotionele woorden in de twintigste eeuw. Ze telden in het Engelstalige Google Booksmateriaal 648 verschillende bijvoeglijke naamwoorden en zelfstandige naamwoorden die naar positieve dan wel negatieve gevoelens verwijzen. Ze berekenden de gemiddelde verhouding tussen positieve en negatieve woorden en keken vervolgens voor ieder jaar of de verhouding daar positiever of negatiever was dan dat gemiddelde. Daar kwamen mooie grafieken uit, die de stemming van de eeuw als het ware weergeven. Je ziet daarin hoe de stemming omlaaggaat tijdens de crisis van de jaren dertig en de Tweede Wereldoorlog, en hoe de stemming daarna, tijdens de babyboom, weer een stuk positiever wordt.
Ook hier is het bezwaar van de taalkundige wereld dat er maar heel globaal naar die woorden is gezocht, waardoor er veel woorden ten onrechte geteld zijn. In ‘Ik ben bang dat je gelijk hebt’ heeft bang nauwelijks nog iets met echte angst te maken. En in ‘Daar ben ik niet blij mee’ komt het woordje blij voor, maar de zin waar het deel van uitmaakt beschrijft geen vrolijke stemming.
Bovendien is de uitkomst vaak wat je verwacht. Natuurlijk waren de mensen tijdens de Tweede Wereldoorlog minder vrolijk.
| |
■ Achteraf voorspellen
Naast boekteksten lenen grote verzamelingen van krantenberichten zich ook goed voor het doorzoeken op sleutelwoorden.
Kalev Leetaru, een Amerikaanse ‘data- wetenschapper’, keek bijvoorbeeld in een enorm archief van nieuwsberichten naar de toon van de berichtgeving over bepaalde landen door de jaren heen. Ook bij hem ging het om de verhouding tussen woorden die positieve dan wel negatieve gevoelens zouden uitdrukken. Hij ontdekte dat de toon waarop er in het eerste decennium van deze eeuw over Egypte, Tunesië en Libië is geschreven, steeds negatiever werd, terwijl die toon in de berichtgeving over Saoedi- Arabië in diezelfde periode heel gelijkmatig bleef.
Leetaru concludeert vervolgens dat hij hiermee de ontwikkelingen in die landen achteraf voorspeld heeft: drie ‘revoluties’ (Egypte, Tunesië, Libië) versus één land waarin het rustig bleef (Saoedi-Arabië). Nu is ‘achteraf voorspellen’ natuurlijk gemakkelijker dan iets voorspellen wat nog moet gaan gebeuren. Maar Leetaru denkt dat met deze techniek ook de kans op toekomstige politieke onrust, overal in de wereld, tot op zekere hoogte voorspeld kan worden.
De afname van het gebruik van woorden als ‘give’ en de toename van ‘get’ zou de individualisering weerspiegelen.
| |
■ Nieuwe inzichten
Antal van den Bosch, hoogleraar Example-based Language Modelling aan de Radboud Universiteit Nijmegen, is in Nederland een van de mensen die veel ervaring hebben met het doorzoeken en analyseren van grote hoeveelheden tekst. Hij volgt de huidige hype aan onderzoekjes kritisch, maar toch ook met interesse.
Soms worden er door de bèta-wetenschappers originele vragen gesteld, vindt hij - vragen waar een geesteswetenschapper misschien niet zo snel op zou komen. Bèta-wetenschappers zijn ook wat minder tobberig dan geesteswetenschappers. ‘In de exacte wetenschappen zie je altijd dat er bij iedere nieuwe techniek, iedere nieuwe technische mogelijkheid, een soort technisch positivisme de kop opsteekt. Kijk, we hebben een nieuwe techniek en daarmee gaan we een hele hoop dingen oplossen. In wezen is dat natuurlijk een optimistische houding. Maar een geesteswetenschapper die midden in de complexiteit van zijn onderzoek zit en dan zo'n heel ruwe methode gepresenteerd ziet, die denkt: nou, dat gaat al bij de eerste stap mis, daar zitten allerlei
| |
| |
aannamen over taal in die helemaal niet kloppen. En vervolgens zijn er veel geesteswetenschappers die zich dan van zo'n nieuwe techniek afwenden. Wat natuurlijk jammer is. Want als je betere zoekmethoden ontwikkelt, kan dit op den duur nog heel veel gaan opleveren.’
Hoogleraar Antal van den Bosch volgt de huidige hype aan taalonderzoekjes van niet-taalkundigen kritisch.
Foto: Richard Bank
Van den Bosch deelt overigens de kritiek die taalkundigen over de hele wereld hebben op dit type onderzoeken. Tot nu toe komen er vooral dingen uit die nogal voor de hand liggen: ‘Als geesteswetenschapper zoek je eigenlijk naar iets anders. Je wilt dat er “serendipiteit” ontstaat: dat je toevallig iets vindt waar je niet naar op zoek was, iets raars, een onverwacht piekje in de statistiek. Daar ga je dan op inzoomen, heel goed naar kijken. Dat kan een startpunt zijn voor nieuwe inzichten.’
Daarnaast is er de nodige discussie over wát de onderzoekers nu precies geteld hebben. Kun je dat wel ‘woorden’ noemen?
| |
■ Gas
Soms lijkt er inderdaad iets nieuws naar boven te komen. Een van de vreemdste taalonderzoeken van de laatste tijd kwam van een groepje van economen en natuurkundigen in een internationaal samenwerkingsverband. Zij schreven een artikel over wat zij het ‘afkoelen van talen’ noemden: naarmate talen terrein winnen (meer sprekers, meer boeken) neemt de woordenschat van die talen toe. De onderzoekers trokken de conclusie dat die toename van jaar tot jaar geleidelijk aan afzwakt, totdat er uiteindelijk een soort evenwicht bereikt wordt: er verdwijnen dan ieder jaar ongeveer evenveel woorden uit die taal als er nieuwe bij komen. Dat proces vergeleken ze met een gas dat langzaam uitdijt en daarbij afkoelt.
Antal van den Bosch is niet erg enthousiast over dit onderzoek. ‘Wat ze gevonden hebben, is gewoon wat in de taalwetenschap al lang bekendstaat als de Wet van Zipf en de Wet van Heap.’ De Wet van Zipf beschrijft hoe in een taal de verdeling is tussen woorden met hogere frequenties en woorden met wat lagere frequenties. Er is - in ieder geval voor de vierduizend meestvoorkomende woorden van een taal - een mooi wiskundig verband tussen de rang die een woord inneemt op de lijst van meestvoorkomende woorden en hoe vaak zo'n woord voorkomt (het een is omgekeerd evenredig aan het ander). En de Wet van Heap voorspelt hoeveel nieuwe woorden je vindt als je het materiaal waarin je zoekt, uitbreidt. Elke keer als je het uitbreidt, vind je weer nieuwe woorden, zoals samenstellingen en eigennamen. Maar met iedere uitbreiding is het aantal nieuwe woorden iets lager dan bij de vorige uitbreiding.
Dit effect heeft de onderzoekers van de ‘afkoelende taal’ parten gespeeld. Want wat hebben zij gedaan? Ze hebben met behulp van de Ngram Viewer voor ieder jaar het aantal verschillende woorden geteld. Nu is het zo dat vanaf 1800 ieder jaar de hoeveelheid beschikbaar tekstmateriaal toeneemt. En het aantal verschillende woorden neemt daarmee automatisch toe, volgens de Wet van Heap.
| |
■ Op één hoop
Daarnaast is er de nodige discussie over wát de onderzoekers nu precies geteld hebben. Kun je dat wel ‘woorden’ noemen? De Amerikaanse taalkundige Mark Liberman geeft op zijn blog wat voorbeelden van woorden die in het onderzoek meegeteld zijn als Engelse woorden. Hoewel de onderzoekers geprobeerd hebben de meeste typefouten en rariteiten eruit te filteren door alleen ‘woorden’ te tellen die minstens 32.000 keer voorkomen in het doorzochte materiaal, zitten er nog steeds veel rare dingen tussen. Een paar willekeurige voorbeelden: ‘Lichnowsky’, ‘56.6’, ‘GLP’, ‘325’ en ‘Niu’. Zijn dat soort getallen en namen Engelse woorden?
En verder is het aantal woorden dat je op deze manier telt ook sterk afhankelijk van wat de spelling van een taal toevallig met die woorden doet. In het Nederlands zou je filmfestival, als je op deze manier te werk gaat, als één woord tellen, terwijl het equivalent daarvan in het Engels, film festival, als twee woorden geteld zou moeten worden.
Kortom, ook in dit onderzoek wordt een te simpel idee gehanteerd van wat een woord is.
Daarnaast heeft Van den Bosch moeite met de diversiteit van het materiaal waar het op gebaseerd is. ‘Ze hebben vooral naar het Engels gekeken, en dat heeft een heel bijzondere status. Het Engels is vanuit één kern overgewaaid naar allerlei delen van de wereld en daar zijn allerlei varianten ontstaan. Dat is voor de Ngram Viewer allemaal bij elkaar geveegd, op één hoop gegooid. Regionale varianten, sociale varianten, een heleboel beroepstalen ... Als je daar geen onderscheid meer in maakt, vlieg je als onderzoeker heel hoog over je materiaal heen en kom je tot conclusies waar je in de werkelijke wereld maar heel weinig aan hebt.’
|
|