Tijdschrift voor Nederlandse Taal- en Letterkunde. Jaargang 124
(2008)– [tijdschrift] Tijdschrift voor Nederlandse Taal- en Letterkunde– Auteursrechtelijk beschermd
[pagina 201]
| ||||||
Peter Boot
| ||||||
[pagina 202]
| ||||||
Fig. 1 Lijst van correspondenten van De Groot.
Fig. 2 Overzicht van de correspondentie De Groot-Vossius.
zou moeten werken, maar geven echte uitvoer van een systeem in ontwikkeling. We kunnen dus een correspondent selecteren, en een overzicht krijgen van de brieven aan en van die correspondent (figuur 2). In dat overzicht zien we, zonder al te veel moeite, in welke jaren zich die correspondentie voornamelijk afspeelde. Voor een digitale editie zou dit voor zich moeten spreken. We kunnen echter nog een stapje verder gaan en een overzicht genereren als in figuur 3: een staafdiagram van de betreffende correspondentie, per jaar. Dit is een voorbeeld van wat ik een ‘megascoop’ noemde: een visuele weergave van een belangrijk gegeven over de correspondentie die in één oogopslag kan worden overzien. Deze weergave leidt vanzelf tot een volgende vraag: wat is de positie van deze individuele correspondentie binnen het geheel van de correspondentie van De Groot? Om te beginnen zouden we het overzicht kunnen plaatsen in de periode van De Groots overgeleverde correspondentie (figuur 4). We krijgen dan een indruk in welke periode van zijn leven het contact met Vossius voor De Groot van belang was. Een betere indruk daarvan krijgen we misschien nog als we het relatieve volume van de correspondentie uitzetten (figuur 5): we zien hier voor elk jaar, in zwart, het percentage van de correspondentie van De Groot uit dat jaar, als deel van de totale correspondentie, en in grijs het percentage van de volledige correspondentie van De Groot met Vossius uit dat jaar. Wat we dus zien is een relatieve aanduiding van het belang van de correspondentie met Vossius in een bepaalde periode. We hebben nu een aspect van een correspondentie gevisualiseerd, en vervolgens hebben we het voorzien van een context in de vorm gegevens over de bredere correspondentie. In plaats van te vragen naar een deelcorrespondentie en die te voorzien van context uit de bredere correspondentie, zouden we natuurlijk ook aan de andere kant kunnen beginnen: we kunnen beginnen te vragen naar de meest frequente corres- | ||||||
[pagina 203]
| ||||||
Fig. 3 De correspondentie De Groot-Vossius per jaar.
Fig. 4 De correspondentie De Groot-Vossius per jaar, geplaatst in de periode van De Groots overleverde correspondentie.
Fig. 5 De correspondentie De Groot-Vossius per jaar (grijs) ten opzichte van de Groots volledige correspondentie (zwart).
pondenten (figuur 6): de correspondenten gesorteerd op aantal brieven. Of, een andere manier om te kijken naar de belangrijke correspondenten, met wie strekt de correspondentie zich over de meeste jaren uit (figuur 7)? We zien de correspondenten en de duur van hun correspondentie met De Groot. Het zal niet verbazen dat dat vooral de familieleden zijn. De mogelijkheden zijn eindeloos. We zouden het belang van een correspondentie kunnen uitdrukken, niet in aantal brieven, maar in aantal lettertekens, zodat de lengte van de brief meeweegt. We zouden de weergave van de aantallen brieven kunnen afzetten tegen de weergave van de brieflengte, zodat we een indruk krijgen van aan wie een paar lange brieven zijn gericht, en aan wie talloze kattebelletjes. We kunnen de weergave beperkten tot de brieven van De Groot zelf, in plaats van die van De Groot en correspondent. We kunnen de verschillende overzichten produceren per decennium of per | ||||||
[pagina 204]
| ||||||
Fig. 6 De Groots frequente correspondenten (in aantallen brieven).
Fig. 7 De Groots langdurigste correspondenten (in aantal jaren).
| ||||||
[pagina 205]
| ||||||
jaar. The sky is the limit, of misschien geeft de diepte van de beurs de limiet aan, of misschien wel datgene wat nog overzichtelijk kan worden gepresenteerd - want dat is natuurlijk een volgende uitdaging.
Mijn stelling is dat grafieken zoals degene die we hier hebben gezien niet alleen maar aardig of handig zijn, maar een daadwerkelijk ander zicht op de historische werkelijkheid geven en ons dingen leren die in een andere presentatie van de gegevens onzichtbaar blijven. Deze benadering is onder andere geïnspireerd door Franco Moretti's Graphs, Maps, Trees (Moretti 2005).Ga naar voetnoot1 In het boek gebruikt Moretti grafieken, kaarten en bomen in de studie van de verschijnselen waar wij nu naar kijken, verschijnselen die te groot zijn voor het blote oog. Zijn keuze van technieken wordt mede gemotiveerd door de wens een literatuurgeschiedenis te schrijven die verder gaat dan onze beperkte canon: een literatuurgeschiedenis die rekening houdt met de literaturen van de hele wereld, en met de 99.5% van de werken die de canon niet halen. Het is duidelijk dat een dergelijke studie zich niet kan beperken tot technieken van ‘close reading’. In zijn opstel ‘Conjectures on world literature’ (Moretti 2000) bepleit Moretti een methode van ‘distant reading’: ‘where distance is however not an obstacle, but a specific form of knowledge: fewer elements, hence a sharper sense of their overall interconnection. Shapes, relations, structures. Forms. Models’. Moretti's veld van onderzoek is de roman, en hij past grafieken toe om de ontwikkeling van subgenres van de roman uiteen te zetten, kaarten om, onder andere, patronen van gebeurtenissen in romans zichtbaar te maken - en vervolgens te relateren aan maatschappelijke ontwikkelingen - en bomen, vergelijkbaar met evolutionaire stambomen, om de totstandkoming van (sub)genrekenmerken te beschrijven. Hij beschrijft zijn toepassing van kaarten als volgt: [...] you reduce the text to a few elements, and abstract them from the narrative flow, and construct a new, artificial object like the maps that I have been discussing. And with a little luck, these maps will be more than the sum of their parts: they will possess ‘emerging’ qualities, which were not visible at the lower level’ (Moretti 2005: 53). Die ‘emergente’ eigenschappen, de eigenschappen die op een hoger niveau te voorschijn komen of zichtbaar worden, zijn de eigenschappen die ik omschreef als ‘te groot voor het blote oog’. Een ander voorbeeld in ons geval zou kunnen gaan over de taal die in de brieven wordt gebruikt. Figuur 8 toont een weergave daarvan aan de hand van het eerste deel van Grotius' brieven: per correspondent een vak, waarvan de grootte correspondeert met het aantal brieven, en de kleur de taal weergeeft (lichtgrijs is Latijn, donkergrijs Nederlands, middengrijs Frans). Zo'n weergave roept direct de vraag op: wie zijn dan die paar mensen aan wie de Groot in het Nederlands schrijft, en waarom? Moretti publiceert zijn grafieken en kaarten in een boek.Ga naar voetnoot2 De boeken zijn de neerslag van heel veel geduldig onderzoek, en ze presenteren dat onderzoek aan | ||||||
[pagina 206]
| ||||||
Fig. 8 Taal en omvang van de correspondentie per correspondent.
de lezer. Als Huygens Instituut zouden we meer willen doen dan dat: niet alleen het presenteren van onderzoeksresultaten (hoewel dat natuurlijk óók), maar daarnaast ook het aanbieden van een onderzoeksinstrument aan de onderzoekers die gebruik maken van onze digitale edities. De visualisaties kunnen dan worden gebruikt om de correspondentie te verkennen. Dergelijke visualisaties moeten voldoen aan een aantal eisen: (1) ze moeten interactief zijn, (2) ze moeten een ingang bieden tot de data die ze visualiseren, en (3) ze moeten bewaard en geadresseerd kunnen worden. Ik ga op die eisen wat nader in. Ten eerste: het aspect van interactiviteit. Het moet niet zo zijn dat een digitale editie alleen een aantal kant-en-klare plaatjes bevat van de verschijnselen die de tekstbezorgers interessant vinden, bijvoorbeeld een overzichtje van de correspondentie van De Groot met Vossius, of een overzicht van zijn belangrijkste correspondenten. Integendeel, de gebruiker moet in staat zijn om de overzichten op te vragen waar hij of zij in is geïnteresseerd, en het systeem moet die op afroep vervaardigen. Het moet ook mogelijk zijn in een grafiek in te zoomen, om de vragen te beantwoorden die een grafiek kan oproepen - toon nu eens, bijvoorbeeld, de belangrijkste correspondenten per decennium, of per periode in Grotius' leven. Of maak een overzicht van het taalgebruik per periode. Het is duidelijk dat er een grens is aan voorgeprogrammeerde zoekmogelijkheden, en de precieze mogelijkheden die we gaan bieden moeten worden bepaald in samenspraak met inhoudelijk deskundigen. Wie nog weer andere grafieken wil, zou het materiaal moeten kunnen downloaden, om met behulp van bijvoorbeeld Excel of SPSSGa naar voetnoot3 de gegevens te lijf te kunnen gaan. | ||||||
[pagina 207]
| ||||||
Ten tweede: de grafieken als ingang tot de gegevens. De ondertitel van Moretti's boek luidt: ‘abstract models for literary history’. Met die abstractie valt het wel mee, omdat uiteindelijk, zoals Moretti ook zegt, ‘their consequences are on the other hand extremely concrete: graphs, maps, and trees place the literary field literally in front of our eyes’. Maar om de visualisaties te integreren in de praktijk van het onderzoek is het wenselijk ze niet alleen te kunnen zien, maar ze ook te gebruiken. Elk jaartal in een grafiek moet aanklikbaar zijn en leiden tot een overzicht van de brieven in dat jaar, elke persoonsnaam moet gekoppeld zijn aan de brieven aan die persoon, elke taal-persooncombinatie uit de grafiek die ik u zojuist toonde aan de brieven aan die persoon in die taal. Alleen dan worden de plaatjes inzetbaar voor het onderzoek van de vragen die ze oproepen. Ten derde en ten slotte: de grafieken moeten bewaard en geadresseerd kunnen worden. Dat een afbeelding moet kunnen worden opgeslagen voor gebruik in een artikel spreekt voor zich. Maar met de blik op de toekomst is het misschien nog belangrijker om een bepaalde grafiek ook rechtstreeks digitaal te kunnen adresseren. Het opgeslagen plaatje is immers niet langer interactief en biedt geen toegang meer tot de gegevens. Als we een artikel schrijven waarin we gebruik maken van een bepaalde visualisatie, willen we kunnen verwijzen naar die interactieve versie die de achterliggende gegevens daadwerkelijk ontsluit. Dat betekent dat elke grafiek geïdentificeerd moet worden door een eigen webadres. Als dat niet het geval is, moeten we verwijzen in de vorm van ellenlange omschrijvingen als ‘ga naar het hoofdmenu, selecteer Vossius als correspondent, vraag in de getoonde lijst om een presentatie van de correspondentie per jaar’ - op papier misschien nog net acceptabel, maar als straks ook wetenschappelijke artikelen digitaal gaan verschijnen een echte belemmering voor effectief verwijzen.
Het Huygens Instituut werkt aan een database met geleerdencorrespondentie waarvan Grotius' correspondentie hopelijk een belangrijk onderdeel wordt.Ga naar voetnoot4 Het contextualiseren en visualiseren van gekwantificeerde informatie is één van de faciliteiten die we daarin willen gaan aanbieden. Zaken die dan mogelijk worden zijn bijvoorbeeld het opvragen van een kaart van de plaatsen van verzending en ontvangst van een bepaald epistolair subcorpus. Figuur 9 geeft een voorbeeld van het eerste deel van de brieven van De Groot. Na klikken op een plaats worden de aantallen getoond (figuur 10), vervolgens kunnen de betrokken brieven worden opgevraagd. De visualisatie is interactief en gekoppeld aan de data die worden gevisualiseerd. Een andere optie is het tonen van een deel van de correspondentie op een tijdbalk, waarbij als context bijvoorbeeld een aantal feiten uit het leven van De Groot wordt getoond (figuur 11). Interactie is mogelijk door het schuiven van de balk, en opnieuw kunnen vanuit de visualisatie de onderliggende brieven worden opgevraagd (figuur 12). Nog weer andere mogelijkheden zijn het toepassen van hulpmiddelen voor geheel of gedeeltelijk automatische tekstclassificatie (Zie bijvoorbeeld Louwerse en Van Peer 2007), en het vervolgens visualiseren van de resultaten daarvan. Het laatste punt dat ik hier aan de orde wil stellen heeft zijdelings te maken met | ||||||
[pagina 208]
| ||||||
Figuur 9 Plaatsen van verzending en ontvangst uit het eerste deel van De Groots correspondentie.
Fig. 10 Aantallen brieven per plaats uit de correspondentie.
dat ‘gedeeltelijk automatisch’. Figuur 9 toonde een kaart die met een druk op de knop door het systeem kan worden aangemaakt, een kaart van plaats van verzending en ontvangst in Grotius' correspondentie, maar helemaal vanzelf gaat dat | ||||||
[pagina 209]
| ||||||
Fig. 11 De correspondentie van De Groot op een tijdbalk.
Fig. 12 Het opvragen van een brief uit de tijdbalk.
niet. Eerst moet iemand de plaatsen in de correspondentie hebben gecodeerd, en aan die plaatsen moeten geografische coördinaten zijn toegekend. Er komen in de correspondentie natuurlijk eindeloze hoeveelheden plaatsaanduidingen voor die nog niet expliciet zijn gecodeerd, en waarvan het toch interessant kan zijn ze op een kaart uit te zetten - denk aan woonadressen, plaatsen van herkomst, veldslagen, enzovoort. Behalve een component die visualisaties kan genereren aan de hand van reeds beschikbare gegevens, zullen onze edities het dus ook voor onder- | ||||||
[pagina 210]
| ||||||
zoekers mogelijk moeten maken de betreffende gegevens in te voeren, zodat ze vervolgens de voor hun onderzoek relevante kaarten en grafieken kunnen tonen. Dat geldt niet alleen voor plaatsen: het zou mogelijk moeten worden om een categorisering naar onderwerp aan de brieven te hechten, of een groepering van de correspondenten in bijvoorbeeld familieleden, intellectuelen en diplomaten, of willekeurig welke andere onderscheiding die een onderzoeker relevant vindt. Dergelijke annotaties moeten net zo goed als basis voor visualisaties kunnen dienen als standaard aanwezige coderingen. Ook daarmee zijn we aan het experimenteren. Ik ga nog even terug naar het begin van mijn verhaal. Ik noemde de verschijnselen die te groot zijn voor het blote oog, en gebruikte die om de noodzaak van methoden voor visualisatie te beargumenteren. Zo lijkt het misschien alsof visualisatietechnieken alleen van belang zijn voor degenen die werken met zulke megacorpora als de brieven van De Groot. Ik denk dat dat een vergissing zou zijn. Elk corpus is een deelcorpus van een potentieel veel groter corpus van brieven uit het betreffende tijdvak, en de opmerkelijkheid van een verschijnsel kan alleen beoordeeld worden binnen dat grotere kader. Het zal om praktische redenen niet altijd mogelijk zijn, maar het is in principe wenselijk bij de studie van een kleinere correspondentie deze in te bedden in een grotere collectie van digitaal beschikbare en te analyseren brieven. Wat ik hoop in deze bijdrage te hebben laten zien is dat interactieve visualisatietechnieken kwantitatieve verschijnselen in correspondenties niet alleen zichtbaar maar bijna tastbaar kunnen maken. Ze leveren een instrument voor de exploratie van de correspondentie dat in belangrijke mate kan bijdragen aan het overzicht over en inzicht in de correspondentie. Met de toenemende beschikbaarheid van grote digitale corpora wordt het experimenteren met en ontwikkelen van zulke interactieve visualisatietechnieken steeds belangrijker. | ||||||
Bibliografie
| ||||||
Adres van de auteurHuygens Instituut knaw |
|