De Zeventiende Eeuw. Jaargang 22
(2006)– [tijdschrift] Zeventiende Eeuw, De– Auteursrechtelijk beschermd
[pagina 333]
| |
Discussieforum
De zeventiende eeuw gestandaardiseerd
| |
[pagina 334]
| |
worden dat hij er zorg voor draagt dat zijn digitale materiaal, net als de oorspronkelijke artefacten, de tand des tijds zal weerstaan. Digitale duurzaamheid gaat verder dan techniek alleen. In de landen om ons heen kunnen we al zien dat fondsenbeherende instanties niet meer tevreden zijn met onderzoeksaanvragen die slechts op inhoudelijke gronden het financieren waard zijn. Wanneer ict een integraal deel uitmaakt van het onderzoek - hetzij voor het onderzoek zelf, hetzij voor de publicatie van het onderzoeksmateriaal en de onderzoeksresultaten - dan zullen er ook eisen worden gesteld aan de gebruikte apparatuur, software, dataformaten, et cetera. Aangezien zinnig onderzoek zonder hulp van de computer nauwelijks meer denkbaar is, is het aannemelijk dat in de nabije toekomst in nieuwe subsidieaanvragen een duidelijk standpunt omtrent digitale duurzaamheid zal worden verwacht. Een congres als ‘De zeventiende eeuw in digitale sferen’ laat zoals gezegd zien dat de meeste aandacht uitgaat naar díe mogelijkheden van de computer die het eerst in het oog springen. De gevaren die schuilen in het enthousiast maar ondoordacht vullen van databases én de mogelijkheden die een goed doordachte, op de toekomst gerichte infrastructuur het letterkundig en cultuurhistorisch onderzoek biedt, komen nauwelijks aan bod. Die leemte wil ik hier vullen door duidelijk te maken welke beleidsmatige keuzes gemaakt moeten worden en voor welke technieken gekozen moet worden om een onderzoeksproject ‘digitaal duurzaam’ te laten zijn. Doordat ik zelf zowel een technische als een letterkundige opleiding heb gevolgd, ben ik betrokken geraakt bij het Emblem Project Utrecht (epu). Technische termen en uitweidingen - natuurlijk onvermijdelijk in een stuk over digitale duurzaamheid - zal ik proberen te verhelderen met voorbeelden uit dat project. | |
Opzet van een ict-infrastructuurInherent aan een zich snel ontwikkelend vakgebied als de ict is dat het moeilijk is om normatieve uitspraken te doen over de technische aspecten van een onderzoeksproject. Gelukkig lopen het letterkundig en het cultuurhistorisch onderzoek, wat de toepassing van nieuwe technieken betreft, niet voorop. Daardoor kan er geprofiteerd worden van inzichten in branches waar data ook duurzaam moeten zijn, en die daarin verder zijn: de medische wereld, overheden, de financiële wereld, et cetera. Allereerst, digitale duurzaamheid moet beleidsmatig nadrukkelijk het uitgangspunt zijn voor elk digitaliseringsproject. Dit beleidsmatige aspect is primair aan de technische aspecten van digitale duurzaamheid. Wat die techniek betreft zijn er, met name de laatste jaren, steeds meer oplossingen ontwikkeld, maar die oplossingen zijn natuurlijk van geen enkele waarde als er niet concreet aandacht aan wordt besteed. Bij veel van de op het congres gepresenteerde projecten lijkt dat het geval: er was ironisch genoeg maar weinig oog voor de discrepantie tussen de duurzaamheid van het te onderzoeken materiaal - al snel honderden jaren oud - en de kwetsbaarheid van het eigen gedigitaliseerde materiaal. Van materiaal van eeuwen oud lijkt het (afgezien van de maatregelen | |
[pagina 335]
| |
die genomen worden om behoud te garanderen en beschadigingen te voorkomen) min of meer vanzelfsprekend dat het nog in te zien en te gebruiken is. Van gedigitaliseerd materiaal moeten we nog maar afwachten of het net zo lang houdbaar blijft. Sterker nog, vrijwel zeker is dat niet het geval. Wie heden ten dage een nieuwe laptop koopt, kan zijn floppy's van enkele jaren geleden al niet meer gebruiken. Bestanden in oudere versies van het populaire programma Microsoft Word van enkele jaren geleden zijn nog maar moeilijk in te zien. En wat te denken van bestanden in WordPerfect 5.1-formaat? Wie heeft er nog WordPerfect op zijn computer geïnstalleerd staan? Wanneer niet uitdrukkelijk als beleidspunt wordt gespecificeerd dat onderzoeksmateriaal de tand des tijds moet kunnen doorstaan en het over - de ouderdom ervan in acht nemend - honderden jaren nog leesbaar moet zijn, wordt er vaak gekozen voor een pragmatische aanpak. Diverse presentaties lieten dat zien: er wordt uitgegaan van binnen een organisatie bestaande competenties en mogelijkheden, waardoor uiteindelijk voor ad-hocoplossingen wordt gekozen. In plaats daarvan zou er onderzocht moeten worden welke nieuwe competenties bij de onderzoeker (of de faciliterende staf) aanwezig zouden moeten zijn, en welke ict-infrastructuur noodzakelijk is voor het garanderen van blijvende toegang tot nu gegenereerde onderzoeksdata. Hier spelen de financiële mogelijkheden natuurlijk mee. Kostenoverwegingen zijn ook onderdeel van ‘digitale duurzaamheid’ - wanneer we verzekerd willen zijn van langdurige toegankelijkheid, moet het beheer van de data zo goedkoop mogelijk geregeld worden. Ten slotte kan gesteld worden dat dit alles een tack zou kunnen zijn van de afdeling systeembeheer, maar dat hoeft niet zo te zijn. Digitale duurzaamheid vraagt immers om een eigen aanpak, en daarvan kan niet zomaar worden verondersteld dat die dezelfde is als de aanpak van de afdeling systeembeheer. | |
Open source en open standaardenDigitale duurzaamheid impliceert bijna direct het gebruik van opensourcesoftware die gebaseerd is op open standaarden. Dit staat haaks op het businessmodel van veel hedendaagse softwarehuizen die met zogenaamde ‘proprietary’ software hun klanten zo lang mogelijk aan zich willen binden. Het bekendste voorbeeld daarvan is het Officepakket van Microsoft: doordat MS Word de defacto standaard op het gebied van tekstverwerkers-software is geworden, kan niemand meer zonder dit pakket. En doordat bijna iedereen over dit pakket beschikt, blijft het voor veel mensen de eerste keus wanneer er een document getypt moet worden. In de loop der jaren is er zo een vicieuze cirkel ontstaan waarbij niemand meer zonder MS Word kan, simpelweg omdat iedereen het heeft - en gebruikt. Voor Microsoft is zo een gelukkige situatie ontstaan: mensen blijven de dure MS Word-licenties aanschaffen, en daarbij steeds ook weer de benodigde versie van het Windows-operating systeem. Op zijn beurt probeert Microsoft gebruikers steeds opnieuw te verleiden over te stappen op nieuwere versies van zowel de Officepakketten als het Windows-operating system. Compatibiliteit met oudere versies is daarbij geen eer- | |
[pagina 336]
| |
ste vereiste. Integendeel: wanneer een gebruiker zijn versie nog niet heeft ‘ge-upgrade’ naar een nieuwere, zal hij daar immers min of meer toe worden gedwongen doordat hij geen bestanden meer kan openen die gemaakt zijn met de laatste, nieuwste versie. Het formaat waarin MS Word-bestanden precies worden opgeslagen is een door Microsoft angstvallig bewaard en met diverse patenten afgeschermd geheim. Juist doordat het niet algemeen bekend is, kan Microsoft te allen tijde en onaangekondigd wijzigingen in dat formaat aanbrengen. Hiermee wordt het voor concurrerende ontwikkelaars bijzonder moeilijk programma's te ontwikkelen die betrouwbaar met het MS Word-formaat om kunnen gaan. Deze situatie, waarin gebruikers afhankelijk zijn van één softwareleverancier, noemt men tegenwoordig wel ‘vendor lock-in’: men vertrouwt zijn data en documenten toe aan de software van een bepaalde leverancier, die deze gegevens als het ware ‘gegijzeld’ houdt. Opensourcesoftware werkt vanuit een tegenovergesteld businessmodel. In plaats van geheim te houden hoe de software precies werkt, wordt de ‘source code’ juist vrijgegeven. Software waarvan de ‘source code’ gewoon beschikbaar is, kan door iedereen aangepast worden - niet alleen door de oorspronkelijke ontwikkelaar. Commerciële ontwikkelaars van opensourcesoftware verdienen hun geld voornamelijk door ondersteunende diensten aan te bieden, en niet meer door gebruikers met geheime bestandsen dataformaten in de houdgreep te nemen. De waarde van de opensourcesoftware ligt juist in de ondersteuning van open standaarden: hoe beter die is, hoe meer mensen gebruik zullen maken van de software. Een bekend voorbeeld van een opensourceprogramma dat gebruik maakt van open standaarden, is de gratis tegenhanger van het Microsoft Office-pakket: OpenOffice. De tekstverwerker uit dit complete office-pakket, qua functionaliteit vergelijkbaar met MS Word, slaat documenten op in het zogenaamde OpenDocument-formaat. Dit OpenDocument-formaat is zo'n open standaard - gegevens die daarin zijn opgeslagen zijn ook toegankelijk vanuit andere programma's. De ‘vendor lock-in’, zoals we die zagen bij het gebruik van MS Word, is hiermee omzeild. Tot in lengte van dagen blijven we verzekerd van toegang tot onze eigen data. | |
Open source in de letteren: xmlEen tekstverwerker - MS Word, OpenOffice's ‘Writer’ - is niet het meest geschikte instrument voor het opslaan van onderzoeksmateriaal. Daarvoor moeten we gebruik maken van de open standaard ‘xml’ - een techniek die de laatste jaren mondiaal is uitgegroeid tot de standaardoplossing voor digitale duurzaamheid. xml (eXtensible Markup Language) is een zogenaamde metataal die lijkt op het alom bekende html. Maar waar html zich leent voor het beschrijven van hoe (bijvoorbeeld) een webpagina eruit moet komen te zien - de stijl, de grootte en de kleur van de gebruikte lettertypen, de achtergrondkleur, enzovoort - blijven we met xml dichter bij de oorspronkelijke documenten. Bij het Emblem Project Utrecht gebruiken we xml om een corpus van 25 zeven- | |
[pagina 337]
| |
tiende-eeuwse liefdesembleembundels digitaal op te slaan. In plaats van te beschreven hoe de bundels eruit moeten komen te zien wanneer ze, door middel van een website, op het internet gepubliceerd worden (waar html dus een geschikte taal voor is), bevatten onze in xml gecodeerde embleembundels enkel en alleen informatie over de inhoud van ons corpus: de emblemen zelf. Het gaat daarbij niet om geringe hoeveelheden data - elk embleem is uiteengerafeld tot in z'n kleinste onderdelen en volgens de xml-syntax beschreven, of ‘gecodeerd’. Van elk embleem is onder andere omschreven wat tot het motto gerekend wordt, waar de subscriptio begint en eindigt, in welke taal (of talen) de verschillende elementen van de subscriptio staan, uit hoeveel regels elk element bestaat en ook weer waar die regels beginnen en eindigen, enzovoort. Daarnaast zijn er grote hoeveelheden vertalingen en referenties naar primaire en secundaire literatuur opgenomen. Door de verwantschap tussen xml en html is het, vanuit een technisch perspectief, niet opzienbarend of ingewikkeld om uit één centrale database met xml-gecodeerde embleembundels een aantal html-pagina's te genereren. Technisch mag het niet erg aansprekend zijn, maar als we ons realiseren dat we alle facetten van die transformatie - van xml naar html - zelf in de hand hebben, dan zal duidelijk worden dat er zich een heel scala aan mogelijkheden voordoet. Zo kunnen we uit onze database niet alleen een website over zeventiende-eeuwse embleembundels genereren, maar ook de printbestanden voor een papieren versie daarvan. Een website over het verschil tussen zeventiend-eeuwse en hedendaagse spelling - om maar een (wellicht) vergezocht voorbeeld te noemen - behoort ook tot de mogelijkheden. En onze data zouden net zo goed (en tegelijkertijd) onderdeel kunnen uitmaken van een grotere website over de relatie tussen zinnelijke en goddelijke liefde door de eeuwen heen. xml biedt meer voordelen. Naast de uitbreiding van mogelijkheden is xml op dit moment het meest geschikte formaat om data in op te slaan die snel en makkelijk toegankelijk moeten zijn én blijven. Als open standaard is het door middel van talloze programmeertalen, en op vrijwel elk computerplatform te verwerken. Anders dan bij ons eerdere voorbeeld, MS Word, hoeven we dus niet per se een pc met Microsoft Windows en Microsoft Office jaar in jaar uit paraat te houden om toegang te blijven houden tot onze data. Doordat er bij het gebruik van sml geen commercieel bedrijf is dat er baat bij heeft het formaat waarin de data zijn opgeslagen geheim te houden, kunnen we er zo goed als zeker van zijn dat ook over zeg 25 jaar onze data nog gewoon toegankelijk zijn. Doordat xml één open standaard is, is de afhankelijkheidsrelatie van één specifieke softwareontwikkelaar doorbroken. Voor de verwerking van xml is een groot aantal opensourceprogramma's beschikbaar - gratis te downloaden, zodat er en passant flink op licentie- en aanschafkosten kan worden bespaard. Eén van die opensourceprogramma's is ‘Apache Cocoon’. Dit is een project van de bekende Apache Foundation en het ‘publishing framework’ dat ook voor het epu ingezet wordt. | |
[pagina 338]
| |
Cocoon is een ‘publishing framework’ dat het makkelijk maakt zonder veel moeite uit een database met xml-bestanden een website te genereren. Het is niet één enkel, los programma, maar een modulair opgezet geheel waarbinnen verschillende technieken worden gecombineerd. Centraal in Cocoon staat de notie van ‘separation of concerns’, wat wil zeggen dat het hele proces van xml-database naar website met html-pagina's is opgedeeld in losse, onathankelijk opererende en configureerbare stappen. Cocoon kan verteld worden dat het uit de xml-database een aantal html-pagina's moet genereren die gezamelijk één website vormen. Daarnaast kan het uit dezelfde database ook de printbestanden voor een papieren versie genereren en zonder noemenswaardige inspanning ook nog, bijvoorbeeld, die informatie uit de xml-database die nodig is voor een website over spellingsvariantie door de eeuwen heen. Cocoon biedt gebruikers een heel scala aan inwisselbare, onafhankelijk te configureren ‘blokjes’ of modules die, achter elkaar geplaatst, de losse stappen in het traject van onderzoeksgegevens naar publicatie verzorgen. Het is een flexibel systeem, waarmee we volledige controle hebben over onze oorspronkelijke gegevens én over de manier waarop die gegevens gepubliceerd worden. Mocht het in de toekomst wenselijk worden dat de embleembundels van het epu ook op de mobiele telefoon, of door middel van een Personal Digital Assistant te bekijken zijn, dan hoeft er aan de verdere inrichting van het ‘publishing framework’ niets te veranderen - we hoeven enkel de juiste Cocoon-modules toe te voegen en te configureren. Meer in de lijn der verwachtingen ligt het dat de embleembundels van het epu over een paar jaar met een nieuwe generatie webbrowsers bekeken zullen worden die misschien niet meer ‘compatibel’ zullen zijn met de hedendaagse. Ook daarvoor hoeven dan slechts enkele modules te worden toegevoegd of aangepast. | |
Conclusiexml biedt, in combinatie met een ‘publishing framework’ als Cocoon, een combinatie van voordelen die allemaal samenhangen met het verminderen van afhankelijkheden. Wanneer we onze gegevens in xml coderen zijn we voor het gebruik en de verwerking ervan niet meer afhankelijk van één softwareleverancier, één computerplatform of één specifiek besturingssysteem. Wanneer we dan ook nog een ‘publishing framework’ als Cocoon gebruiken zijn de aanpassingen die we moeten verrichten om in te spelen op zowel veranderende functionele eisen als technologische ontwikkelingen, tot een minimum beperkt. Die onathankelijkheid is waar het om draait bij digitale duurzaamheid. Het maakt gegevens uitwisselbaar: het maakt de koppeling tussen de Iconclass-database van Mnemosyne en de embleembundels van het epu mogelijk. Het maakt het ook mogelijk voor uiteenlopende projecten één systeem te gebruiken voor het publiceren en opslaan van de data, in plaats van voor elk project een aparte oplossing te ontwikkelen. Het is al met al de oplossing voor het digitaal duurzaam maken van onze data. | |
[pagina 339]
| |
Een verzameling verzamelingen - de lange weg naar standaardisatie
| |
[pagina 340]
| |
bekend mee en bieden niet of nauwelijks ondersteuning. Wie OpenOffice wil gebruiken moet dat zelf willen en er tijd en moeite in steken; ik denk niet dat het voorlopig gestimuleerd zal worden. Daarnaast is er trouwens nog heel veel andere opensourceprogrammatuur die vaak heel goed is, zoals bijvoorbeeld de webbrowser Firefox (alternatief voor Internet Explorer) en het emailprogramma Thunderbird.Ga naar voetnoot1 Er is veel meer, maar laat ik het bij deze voorbeelden laten. | |
Open Source en xml.Voor het bewerken van onderzoeksmateriaal biedt het gebruik van Open Office geen voordelen: alle Officepakketten bieden ondersteuning voor xml. Het blijft trouwens nog steeds even moeilijk gestructureerde xml-documenten te maken. Dat brengt ons bij het gebruik van xml in het onderzoek. Tilstra heeft gelijk in zijn claim dat xml superieur is voor het uitwisselen van (onderzoeks) gegevens. Het biedt alleen geen kanten-klare oplossing voor alle problemen. Gestructureerd ontsluiten is een voorwaarde voor het uitwisselen van gegevens en om te structureren moet er van tevoren worden nagedacht wat er wordt aangeboden aan de (toekomstige) gebruikers en hoe dat in overeenstemming te brengen met het te ontsluiten materiaal. Zo modelleren is geen sinecure en vergt inspanning en inventiviteit van de onderzoeker. Er zijn wel open standaarden die bij structurering kunnen helpen, maar ook daar is het een kwestie van kiezen, want hier geldt de oude ict-grap dat ‘standaarden goed zijn, en dat er daarom zoveel zijn’. Een standaard als het Text Encoding Initiative (tei), bijvoorbeeld, is eigenlijk een eigen taal met een enorm uitgebreide specificatie en vele wegen naar een zelfde doel. De kortste weg hoort daar lang niet altijd bij. Wie naast structurering inhoudelijk ook aan wil sluiten bij een gemeenschappelijke ontsluiting, wordt grotendeels in de steek gelaten. Op het congres van de Werkgroep Zeventiende Eeuw werd er aan inhoudelijke ontsluiting geen aandacht besteed, maar in dezelfde tijd werd in Amsterdam ook een conferentie georganiseerd van de Association for History and Computing (ahc), met deelnemers uit de hele wereld. Daar waren de thesauri en de ontologieën niet van de lucht; met thesauri en ontologieën worden in ict-verband gestructureerde trefwoordsystemen bedoeld. Sommigen maken er een beschrijving van het ganse heelal en omstreken mee, terwijl anderen het wat pragmatischer houden en deze alleen gebruiken voor de ontsluiting van het materiaal waarmee ze werken. Zoals altijd met dit soort systemen zijn er vele verschillende benaderingen die voor de toevallige beschouwer erg veel overeenkomsten lijken te hebben, maar die volgens de ingewijden elkaar toch onderling uitsluiten. Niet zelden zijn die ingewijden ook de opstellers. Dan hebben we het nog niet eens over verschillende vakgebieden waarbij alleen de kunstgeschiedenis met Iconclass en de Art en Architecture Thesaurus (geen van beide open source trouwens) over enigszins brede acceptatie beschikt. | |
[pagina 341]
| |
Gewoon ict?Peter Doorn, voorzitter van de ahc en directeur van het nwo data-archief dans, noemde het in zijn inleiding op de ahc-conferentie opmerkelijk dat er nu ook aandacht wordt besteed aan ‘information retrieval’. In zekere zin is dit te beschouwen als het spiegelbeeld van de ontsluitingsproblematiek, want uiteindelijk gaat ‘information retrieval’ over de toegankelijkheid van gepubliceerde informatie. Het is, denk ik, het gevolg van het groeiend aantal online publicaties die vragen om de toepassing van zoekmachines die kunnen omgaan met verschillende soorten informatie, zoals xml gestructureerd materiaal, waardoor metadata en ontsluitingsinformatie, en fulltext steeds vaker samen worden aangeboden. Het eerste wat opvalt bij beschouwing van de verzamelde lezingen op zowel het ahc als het congres van de Werkgroep Zeventiende Eeuw, is de vrij grote afstand die er lijkt te bestaan tussen de praktijk van het onderzoek en de ontwikkelingen in het gebruik van elektronische hulpmiddelen en technieken. Dit is in overeenstemming met de verkenning naar de toekomst van geschiedbeoefening en ict die Peter Doorn, Onno Boonstra en Leen Breure de afgelopen tijd publiceerden.Ga naar voetnoot2 Zij constateren daar dat ‘history and computing’ nergens bloeit in de Nederlandse universitaire wereld. Het is niet zo eenvoudig om deze kloof te duiden. Voorheen was het bij conferenties over ‘menswetenschappen en de computer’ toch gewoon om te laten zien wat nieuwe technieken konden betekenen voor het onderzoek, eerst op kwantitatief gebied en databases, en later met behulp van xml. Nu komen verhalen over kwantitatieve methoden niet of nauwelijks meer voor, en dat kan niet alleen maar komen doordat bijvoorbeeld seriële geschiedenis minder in de belangstelling ligt. Het zou natuurlijk gewoon een gevolg kunnen zijn van het gegeven dat het nieuwtje eraf is, dat iedereen wel weet hoe het moet, en dat elektronische hulpmiddelen onderdeel zijn geworden van het gewone arsenaal van onderzoekers in de humaniora waar letterkundige Edward van Houtte uit België in 2004 op een symposium over ict in de letteren voor pleitte. Iedereen gebruikt natuurlijk de computer, maar de meeste onderzoekers in de menswetenschappen bepalen zich in het gebruik van elektronische hulpmiddelen, zoals gezegd, tot een veilig ervaren gereedschap van beperkte variëteit dat gebundeld wordt geleverd in het Microsoft Officepakket dat we al eerder tegen kwamen - MS Word, MS Excel, MS Access. De hands-on benadering, die vaak neerkomt op wat laatdunkend maar wel treffend is gekenschetst als het ‘me and my database’-syndroom, is er nog wel bij nieuwe modes. Nu zijn dat de Geografische Informatie Systemen (gis) - eigenlijk ligt dit wel in het verlengde van de kwantitatieve methoden. Tijdens het congres van de Werkgroep Zeventiende Eeuw toonde de Fryske Akademy zijn historisch gis, en bij de ahc waren er wel vijftien lezingen op dit gebied. Overigens waren er ook vorig jaar al op een soort- | |
[pagina 342]
| |
gelijke bijeenkomst over computertoepassingen in de letteren in Amsterdam ten minste twee lezingen over de mogelijkheden van fis. Over het gebruik van xml wordt nog wel veel gesproken, maar dan gaat het vaker over grootschalige uitwisseling en standaardisering en minder over het dagelijks gebruik in het onderzoek. Nu is xml ook niet direct een formaat dat iedereen zelf in zijn onderzoek gebruikt, want het is gemaakt voor de uitwisseling van informatie en als zodanig meer geschikt voor wie informatie wil verspreiden dan voor wie het (eenmalig) wil gebruiken. Wie xml wil gebruiken moet veel investeren, want een succesvol project vereist al gauw kennis van een hele reeks standaarden en een boel keuzes. Een document-bewerking van begin tot eind vergt kennis van xml zelf, van een xml-schemataal, een xml-toepassing als tei en wat presentatiegereedschappen als xslt en css. Dat is dan een recht-toe-recht-aan oplossing, zonder database en web-publicatietoolkit. Zoals ik hierboven al opmerkte, zelfs als er ondersteuning is op technisch gebied, moet er worden nagedacht over de vorm en de diepte van ontsluiting en de wijze waarop dat effectief te modelleren - het lijkt wel wetenschap. Dit is echt niet bedoeld als schrikbeeld, maar misschien wel een verklaring waarom onderzoekers soms vastlopen. | |
ErfgoedinstellingenDe tweede algemene trend sluit aan bij dat laatste punt. Waar de ict-toepassingen voor de onderzoekers wat op de achtergrond zijn geraakt, zijn de erfgoedinstellingen, de verzamelde archieven, musea en bibliotheken, veel meer op de voorgrond getreden. Uiteraard heeft dit zijn weerslag op de soorten onderwerpen die aan bod komen en de focus die projecten krijgen. Erfgoedinstellingen zijn van nature gericht op het ontsluiten van hun collectie. Vaak dragen ze daarbij ook een heel verleden met zich mee van ontsluitingen die dateren uit het pre-elektronische tijdperk. Voorts zijn ze vaak veel meer gericht op het algemene publiek dan op onderzoekers, al hangt dat af van hun primaire publiek of wat zij beschouwen als belangrijkste gebruikersgroep, en ook van de mate van worteling van een instelling in een wetenschapsgebied of -traditie. Vaak is veel geld gemoeid met collectie-georiënteerd werk (ontsluiting, digitalisering) en komt ondanks alle inspanningen maar beperkt nieuw materiaal beschikbaar voor onderzoekers - er wordt gedigitaliseerd wat al goed toegankelijk was. Tijdens de ahc-conferentie kwam dit onderwerp niet aan de orde, maar tijdens het congres van de Werkgroep Zeventiende Eeuw werd wel de vraag herhaalde malen opgeworpen of alle aandacht (en subsidiegelden) die naar collectieontsluiting en het erfgoed gaan, niet ten nadele gaat van onderzoek. Een bevredigend antwoord kwam er niet. Er is wel een verklaring te bedenken voor deze verschuiving van een onderzoeksgerichte naar een meer institutioneel-infrastructurele focus in de verhalen over ‘computers in het historisch onderzoek’ in brede zin. Zoals enige tijd geleden tot schrik van de in groten getale aanwezige historisch-informatici bij een andere bijeenkomst (in een toelichting op de voorbereiding van wat nu het catch-programma is) min of meer expliciet door iemand van nwo werd gezegd, zijn de erfgoedinstellingen stabielere en be- | |
[pagina 343]
| |
ter aanspreekbare samenwerkingspartners voor subsidiërende organisaties (in dit geval nwo) dan wetenschappers, want die zijn individualistisch en kleinschalig, en onderling zijn ze het bovendien altijd oneens. Grotere erfgoedinstellingen schermen ook graag met die stabiliteit en de garantie dat resultaten van projecten gegarandeerd toegankelijk blijven. Patricia Alkhoven van de afdeling Research en Development van de kb onderstreepte dat ook in haar vooruitblik naar de toekomst van de wetenschappelijke informatievoorziening voor de verzamelde Zeventiende-Eeuwers. Enigszins onthutsend was het wel dat de kb een van haar eerst gepubliceerde digitale atlassen offline heeft gehaald vanwege een verouderde technische omgeving. Het materiaal is nu ondergebracht in Het Geheugen van Nederland, ook van de kb. Helaas biedt het Geheugen, ook volgens Alkhoven, een veel mindere toegang tot het materiaal. | |
PerspectievenHet algemene beeld is toch een tamelijk versnipperd beeld van de rol die ict speelt in de humaniora en van wat we in de nabije toekomst kunnen verwachten. De variëteit aan benaderingen is groot en het niveau van het gebruik van computertechnologie en de diverse toepassingen, voorzover ze althans worden getoond, is tamelijk hoog geworden. Voorts is er een duidelijk zwaartepunt komen te liggen bij het erfgoed en enigszins weg van de wetenschappelijke toepassingen. Voor degenen bij wie het besef is doorgedrongen dat ‘hij of zij nu ook aan het digitaal publiceren moet, maar nog niet weet hoe’, zoals voorzitter Maarten Prak van de Werkgroep Zeventiende Eeuw het uitdrukte, is het er niet eenvoudiger op geworden, zich een beeld van de mogelijkheden te vormen. Daar komt nog bij dat er veel wordt getoond, maar dat de mate van reflectie nogal laag is. Er worden nauwelijks voors en tegens van diverse benaderingen uiteengezet en een schets van de stand van zaken op een deelgebied komt zelden aan de orde. Dit is te negatief om mee te besluiten, want er zijn wel enkele praktische richtlijnen waar degenen die digitaal willen gaan publiceren gebruik van kunnen maken. Het World Wide Web heeft in de laatste jaren enkele interessante ontwikkelingen gezien, waarvan de mogelijkheid allerlei voorheen gescheiden diensten met elkaar te verbinden de belangrijkste zijn. Hier is veel over te zeggen, maar dat zal ik niet doen. Hierboven is geconstateerd dat xml vooral erg geschikt is om gegevens uit te wisselen. De programmatuur die wordt gebruikt voor publicatie biedt ook mogelijkheden om gegevens in xml-vorm aan te bieden. In de meeste wetenschappelijke projecten wordt naast inhoudelijke bewerking ook een zekere mate van gestructureerde gegevensopslag toegepast. Dat varieert van heel licht, in de vorm van titelbeschrijvingen van de ontsloten documenten, tot zeer diep. Er bestaan veel hulpmiddelen die gegevens automatisch kunnen koppelen. Vanzelf gaat dat natuurlijk niet, maar er is een aantal hoopgevende initiatieven. Momenteel gebeurt dat al mondjesmaat waar ‘repositories’ van publicaties worden aangeboden. Het instituut dans heeft verklaard de ambitie te hebben wetenschappelijk materiaal gestruc- | |
[pagina 344]
| |
tureerd te willen ontsluiten. Een andere mogelijkheid is, zoals Tilstra uiteenzet, de koppeling van gegevens zoals het Emblemata-project en Mnemosyne toepassen. Daarnaast zijn er nog heel veel andere mogelijkheden, die niet direct in een project hoeven te worden toegepast maar ook later gemaakt kunnen worden. Voorwaarde is natuurlijk wel dat wie elektronisch publiceert zoveel mogelijk wegen zoekt om in ieder geval zijn toegangen via het web aan te bieden. xml kan daarbij een sleutelrol spelen, en hoe meer op die manier ontsloten wordt, hoe beter, maar per se noodzakelijk is het niet. Zo kan er worden samengewerkt, misschien niet ideaal, maar wel constructief en op een manier die bijdraagt aan een groeiende, gemeenschappelijke infrastructuur. |
|