| |
| |
| |
Binnenkort kan er digitaal worden gezocht in het werk van onder veel meer (met de klok mee) Conrad Busken Huet, P.A. Daum, Simon Vinkenoog, Frans Netscher, Ivo Michiels, A.A.M. Stols, Jacques Presser en Martinus Nijhoff.
Portret: P.J. Arendsen
Foto: Ben Wolff
Portret: Charles Abraas
Foto: W.S. Nijhoff
| |
Hoe onze woorden snel ouder worden
De introductie van de DBNL-zoekmachine
René van Stipriaan
Wanneer precies werden onze woorden voor het eerst gebruikt? Nicoline van der Sijs leverde met haar Chronologisch woordenboek (2001) een indrukwekkende bijdrage aan de beantwoording van die vraag. Maar gaandeweg wordt het mogelijk om die dateringen nóg nauwkeuriger vast te stellen. Binnenkort komt er een zoekmachine waarmee waarschijnlijk van een groot aantal woorden veel oudere bronnen gevonden kunnen worden.
In zijn dit jaar verschenen Onze premiers (1901-2002). Hun weg naar de top geeft historicus Han van der Horst een korte schets van de opkomst van het ‘minister-presidentschap’ in de Nederlandse politiek. Het was niet, zoals veel mensen denken, Thorbecke, maar de antirevolutionair Abraham Kuyper die het wisselende voorzitterschap van de ministerraad afschafte en zichzelf tot permanente voorzitter liet benoemen. Dat was in 1901. Het was een nieuwe functie, en nieuwe functies krijgen bijna altijd een nieuwe naam. Abraham Kuyper noemde zichzelf ‘premier’.
Dat het zo gegaan moet zijn, kunnen we ook afleiden uit het Chronologisch woordenboek van Nicoline van der Sijs uit 2001. Daarin worden op jaartal nauwkeurige dateringen gegeven van het eerste voorkomen van meer dan achttienduizend Nederlandse woorden. Het woord premier wordt gedateerd op 1904, kennis die Van der Sijs heeft ontleend aan het Woordenboek der Nederlandsche Taal (WNT), en die dus aardig spoort met de loop der geschiedenis.
| |
■ Nieuwe wegen
Het Chronologisch woordenboek is een monumentaal werk. Niet alleen heeft Van der Sijs een bijna niet te bevatten monnikenwerk verricht, ze heeft bovendien voor het onderzoek naar de ouderdom van woorden nieuwe wegen aangewezen. Etymologie heeft zich volgens haar te lang gericht op het speuren naar de herkomst van woorden zonder veel rekening te houden met maatschappelij- | |
| |
ke en culturele ontwikkelingen. Zolang de Nederlandse taalgemeenschap in beweging blijft, zullen er als vanzelf nieuwe woorden ontstaan als nieuwe dingen en denkbeelden hun intrede doen, en zullen minder gebruikte woorden wegzinken als de zaken waarnaar ze verwijzen uit het dagelijks leven verdwijnen. Van der Sijs' chronologische woordenlijst gaat dan ook vergezeld van een intrigerend calendarium van historische gebeurtenissen.
Nog vérstrekkender is haar pleidooi voor een vergaande systematisering van het onderzoek naar de ouderdom van woorden. Deze systematisering kan niet zonder het gebruik van informatietechnologie: de proefschriftversie van het Chronologisch woordenboek heeft dan ook als titel Etymologie in het digitale tijdperk. Van der Sijs legt uit dat het systematisch verzamelen van gegevens over dateringen van woorden door de sorteermogelijkheden van zelfs maar de simpelste database al een stevige impuls kan krijgen. Het verzamelen kan vervolgens echt vleugels krijgen wanneer gebruik wordt gemaakt van grote digitale databanken met van een datering voorzien tekstmateriaal dat liefst meerdere eeuwen beslaat. Hoe meer historische teksten digitaal doorzoekbaar zijn, hoe gezaghebbender de conclusies van de etymoloog kunnen worden.
| |
■ Digitale bibliotheek
In 2001 waren zulke databanken nog nauwelijks voorhanden. Er was de onvolprezen Cd-rom Middelnederlands, er was het WNT op cd-rom (beide samengesteld door het Instituut voor Nederlandse Lexicologie), bij enkele krantenuitgevers waren recente jaargangen van een aantal grote dagbladen onder bepaalde voorwaarden volledig doorzoekbaar, en er was het toen al onmetelijk grote internet, waar de meest uiteenlopende historische teksten te vinden waren, in alle mogelijke gradaties van betrouwbaarheid.
In een klein hoekje van het internet ontwikkelde zich op dat moment de Digitale Bibliotheek voor de Nederlandse Letteren (www.dbnl.org). Die website was in het leven geroepen om onderzoekers van de Nederlandse taal en literatuur de belangrijkste en meestgebruikte primaire en secundaire bronnen in een betrouwbare digitale vorm ter beschikking te stellen. En als die teksten ook volop gebruikt zouden worden door studenten, scholieren en het algemene publiek, dan was de onderneming pas echt geslaagd.
Op het moment dat Nicoline van der Sijs promoveerde, op 20 november 2001, had de DBNL een kleine honderd literaire en taalkundige teksten online staan, naast nog ruim honderd afzonderlijke artikelen. Er kwamen die dag 785 bezoekers naar www.dbnl.org.
Het was allemaal nog heel bescheiden; in haar proefschrift stuitte Van der Sijs voortdurend op een gebrek aan digitaal onderzoeksmateriaal, en ze sprak de verwachting uit dat de DBNL in staat zou zijn in die situatie verandering te brengen. Er is sinds 2001 inderdaad het nodige gebeurd. Inmiddels omvat de site ongeveer 2000 zelfstandige titels, naast 400 jaargangen van tijdschriften en enkele honderden losse publicaties (meest artikelen). Het zijn bij elkaar ruim een half miljoen pagina's, en dat is niet meer dan een paar procent van de totale Nederlandse taal- en letterkunde vanaf de Middeleeuwen tot heden. Maar het publiek weet de DBNL desondanks te vinden; precies vijf jaar na de promotie van Nicoline van der Sijs, op 20 november 2006, beliep het aantal afzonderlijke bezoekers al 15.217.
| |
■ Context
Er waren op het moment dat de DBNL in 2000 van start ging, nauwelijks voorbeelden van websites die betrouwbare teksten presenteerden in combinatie met relevante bijkomende informatie over de auteurs en over de teksten zelf. De DBNL wilde niet alleen de tekst maar ook de context presenteren. Wie is de auteur, wanneer en waar is die geboren, waar en wanneer overleden, van welke sekse, met welk beroep? En bij de teksten zelf ging het uiteraard over de precieze datering, maar ook over het genre waartoe de tekst gerekend wordt. Het bijhouden van al deze gegevens werkte vooruit naar het inrichten van een zoekmachine, waarmee het mogelijk zou worden te zoeken in specifieke selecties van teksten. Bijvoorbeeld alleen maar in romans, of in teksten die stammen uit de periode 1772-1789, of in teksten die geschreven zijn door auteurs die in Antwerpen geboren zijn - om maar een paar willekeurige mogelijkheden te noemen. Met zo'n zoekmachine kan de gebruiker zijn vizier veel scherper richten op die teksten die hem speciaal interesseren. Die behoefte wordt alleen maar groter naarmate de hoeveelheid beschikbare digitale tekst toeneemt. Zo zou het mogelijk moeten zijn om te bezien of de notie ‘straf’ in de Nederlandse jeugdliteratuur veranderingen ondergaat door een eerste verkennend onderzoek te doen naar het voorkomen van dat woord in verschillende perioden.
De DBNL (Digitale Bibliotheek voor de Nederlandse Letteren) omvat duizenden literaire en taalkundige werken.
| |
■ Stroomversnelling
Deze maand is de zoekmachine die het speuren in selecties van de DBNL mogelijk maakt eindelijk online gegaan: www.dbnl.org/zoeken/zoekeninteksten. En daarmee kan het analytische werk van letterkundigen, historici en ook etymologen in een stroomversnelling gebracht worden. Maar ook het algemene publiek kan aan de slag, bijvoorbeeld met het onderzoekje naar het voorkomen van het woord straf in de bij de DBNL beschikbare jeugdliteratuur. Het kost nauwelijks tien minuten. Het geeft de volgende saillante, maar niet geheel onverwachte uitkomsten: in de 75 jeugdtitels van vóór 1900 komt het woord in totaal 148 keer voor (een gemiddelde van 1,97 keer per titel), in de periode 1901-1950 is dat 110 keer op een totaal van 68 jeugdtitels (een gemiddelde van 1,62 keer per titel), en na 1950 komt het woord opeens nog maar 25 keer voor op een totaal van 39 jeugdtitels (een gemiddelde van 0,64 keer per titel). Dergelijke cijfers bieden een stevige grondslag voor verder onderzoek.
Een van de standaardopties van de zoekmachine is het sorteren van de zoekresultaten op datering. En dit biedt perspectieven voor onderzoekers als Nicoline van der Sijs, en voor iedereen (en dat kunnen ook leken zijn) die haar bevindingen uit 2001 tegen het licht wil- | |
| |
len houden. Ze was zich er destijds al van bewust dat de dateringen in haar lijst van ruim 18.000 woorden weleens niet definitief zouden kunnen zijn: ‘Dat betekent dat men ongetwijfeld correcties op de jaartallen van de hier gegeven dateringen kan vinden, wanneer men deze met de loep of microscoop gaat bekijken.’
Illustratie: Matthias Giesen
Met de nieuwe DBNL-zoekmachine komt nu zo'n loep of microscoop beschikbaar, al is ‘röntgenapparaat’ misschien een betere metafoor: het apparaat kan gericht worden op willekeurig welk onderdeel van de Nederlandse taal- en letterkunde (voorzover voorhanden in de DBNL), en dat onderdeel wordt vervolgens doorgelicht op het voorkomen van bepaalde (combinaties van) woorden. Wanneer vervolgens de zoekresultaten (in de vorm van korte citaten) in chronologische volgorde worden opgevraagd, is het heel eenvoudig een eerste analyse op het materiaal uit te voeren. Die analyse blijft overigens mensenwerk: spellingvarianten, homoniemen, eigennamen, zetfouten en digitaliseringsfouten kunnen het beeld vertroebelen.
| |
■ Revolutiejaar
De dissertatie van Van der Sijs is zó opgezet dat het nieuw onderzoek vergemakkelijkt of zelfs uitdaagt. De woorden van een jaar staan mooi alfabetisch gerangschikt bij elkaar. Zo is het interessant te kijken naar het revolutiejaar 1968, dat in Van der Sijs' chronologische woordenboek een productief woordenjaar blijkt te zijn: 93 eerste waarnemingen. Maar een deel van de hippe woorden van 1968 is onweerlegbaar ouder. Woorden als dope, drug, jack (‘kledingstuk’), stoned en shot blijken al in Simon Vinkenoogs Liefde uit 1965 voor te komen. Het woord empathie wordt eveneens in 1965 gevonden, in het tijdschrift Merlyn; dit tijdschrift heeft ook in 1963 al casanova. Sowieso wordt in 1965 gevonden in Ondergang van Jacques Presser. Het woord geslacht (‘geslachtsdeel’) staat bij Ivo Michiels, in Het boek alfa uit 1963. Practical joke duikt in 1960 op, lipstick in 1959, unverfroren in 1950, en crazy zelfs al voor de Tweede Wereldoorlog, in een brief van uitgever A.A.M. Stols aan Jan Greshoff uit 1939. Paella kwam al voor in het tijdschrift Forum in 1935, en story in 1920 in een recensie door Martinus Nijhoff.
Ook in jaren dat de wereld wat kalmer voortbeweegt, duiken altijd weer nieuwe woorden op. 1902 is zo'n jaar, in het Chronologisch woordenboek goed voor 27 nieuwe woorden. Het kost ongeveer een half uur om van deze woorden het eerste voorkomen in de DBNL met de zoekmachine na te gaan. Daarbij moet wel goed opgelet worden. De betekenis en de functie van woorden kunnen namelijk nogal variëren - én in de loop der tijd soms subtiel veranderen.
| |
■ Buste
Een woord dat op zijn zachtst gezegd een spannende betekenisverandering doormaakte, is buste. In de betekenis ‘boezem’ wordt het in het Chronologisch woordenboek voor het eerst gesignaleerd in 1902. Het woord heeft dan al een lang bestaan achter de rug als ‘gebeeldhouwd of geschilderd portret van hoofd, schouders en eventueel borst’, ‘borstbeeld’. In die betekenis komt het in DBNL-teksten veelvuldig voor. Maar in de tweede helft van de negentiende eeuw, bij bijvoorbeeld Busken Huet (‘... waarbij Emma's buste onvorstelijk afstak...’) moet je regelmatig twee keer kijken om vast te stellen dat er nog steeds sprake is van zoiets als ‘borstbeeld’ of ‘silhouet’. In 1885, in een bijdrage van Frans Netscher aan De Nieuwe Gids, duikt het woord onmiskenbaar op als aanduiding voor vrouwenboezem: ‘Hare buste, die tusschen de borsten een kuiltje schaduw vertoonde, was breed, vol, gezond, stalde hare naaktheid vrij uit.’
De Nieuwe Gids levert in de eerste onstuimige jaren vanaf 1885 wel meer vondsten op. Een woord als intens staat in het Chronologisch woordenboek gedateerd op 1902, maar kan al in de eerste jaargang van het roemruchte Tachtigerstijdschrift worden gevonden. Het blijkt een woord waar de Tachtigers veel van houden; zouden ze het zelf uit het Frans of misschien wel Engels hebben geïmporteerd? Een woord als perfide wordt gedateerd op 1902, maar wordt ook in 1885 al gebruikt in De Nieuwe Gids. Wel meer woorden ‘van 1902’ duiken op bij de literaire vernieuwers van het einde van de negentiende eeuw: publiceren (voor ‘in druk geven’) kan in 1873 bij Busken Huet gevonden worden, kriskras bij P.A. Daum in 1887, en de toneeluitroep bis bij Emants in 1877.
| |
■ Guinness World Records
Bij het achterhalen van dateringen is Van der Sijs destijds vooral uitgegaan van het moment dat een woord in een woordenboek werd opgenomen. En als uit dat woordenboek, bijvoorbeeld het WNT, een nadere datering kon worden afgeleid, dan werd die uiteraard overgenomen. Afzonderlijke werken, hetzij fictie, hetzij non-fictie, konden maar spaarzaam worden gebruikt, domweg omdat de tijd ontbrak: ‘Een groot probleem bij het dateren op grond van teksten is dat het erg tijdrovend is teksten
| |
| |
te excerperen’, zo stelde ze in haar inleiding nuchter vast.
Met gereedschap als de DBNL-zoekmachine zal het onderzoek naar het eerste voorkomen van woorden veel minder tijdrovend zijn. Een uurtje werk levert waarschijnlijk al een rijke oogst aan nadere dateringen op. Het Chronologisch woordenboek zal bij die voortgezette onderzoekingen van onschatbare waarde blijken: daarin staan immers de te verbeteren dateringen. Het zal zo bezien gaan werken als het boek Guinness World Records voor de Nederlandse woordenschat. Elke maand komen er in de DBNL-database tussen de vijf en vijftien miljoen woorden bij. Maandelijks zullen tal van woorden aantoonbaar ouder worden.
| |
■ Tijdwinst
Deze nieuwe dateringen bewijzen het gelijk van Nicoline van der Sijs: informatietechnologie kan de etymologie grote diensten bewijzen. Daarbij heeft ze één belangrijke voorwaarde genoemd: het gebruik van computers moet tot aanzienlijke tijdwinst leiden. Bij het raadplegen van diverse cd-roms en het eindeloos uitpluizen van amorfe ongedateerde zoekresultaten van Google is de tijdwinst nog altijd marginaal en blijven de uitkomsten met veel onzekerheden omgeven: heb ik alles wel goed nagekeken (nauwelijks nog mogelijk), heeft Google wel alles wat beschikbaar is geïndexeerd (zeker niet), zijn de teksten die ik op mijn scherm krijg wel betrouwbaar (altijd weer de vraag)? Een database als de DBNL kan dergelijke bezwaren ondervangen; met het groeien van het totale tekstbestand zal de trefzekerheid ervan alleen maar toenemen.
En hoe zit het inmiddels met premier? Vanaf 1880 duikt het woord al regelmatig op in DBNL-teksten, zoals in De Nieuwe Gids van 1887, waar het gaat over de kiesrechtherziening door het ‘ministerie Heemskerk’, waarvan Jan Heemskerk de voorzitter was: ‘Onze premier heeft een kiesrecht gevonden, waar de werkman, en deze bijna alleen, wordt buitengesloten.’
De wisselwerking tussen de woorden en dingen, tussen het taalgebruik en de eigentijdse geschiedenis, wordt er op het eerste gezicht niet eenvoudiger op. Maar wel intrigerender. Hoe kan iets in 1901 worden uitgevonden terwijl het in 1887 al een naam heeft? Woorden sluipen kennelijk toch makkelijker de taal binnen dan de officiële geschiedenis wil. Het kan niet anders of de gloriedagen van de etymologie zijn nog maar net aangebroken.
|
|