Literatuur Zonder Leeftijd. Jaargang 19
(2005)– [tijdschrift] Literatuur zonder leeftijd– Auteursrechtelijk beschermd
[pagina 78]
| |
Ontsluiting van museumcollecties
| |
[pagina 79]
| |
opgesloten in museumcollecties ontsloten kan worden. Dit wordt aan de hand van drie thema's uitgewerkt: metadata, verrijking en personalisering & navigatie. De teams die zich bezighouden met metadata ontwikkelen standaarden en algemene richtlijnen. Bij verrijking gaan teams concreet aan de slag met reeds beschikbare digitale data. Van den Bosch coördineert zo'n verrijkingsteam. ‘Wij nemen de ruwe, net gedigitaliseerde data en brengen met analysetechnieken enkele metadatalagen aan. Als dat gelukt is, kan een ander team met de personalisering aan de slag.’ Personalisering is ontsluiting die rekening houdt met niveau en wensen van de zoekende persoon. ‘Een conservator wil bijvoorbeeld totaal andere dingen zien als hij een zoekvraag intypt dan een willekeurige bezoeker.’ Ook de navigering behoeft aandacht, legt Van den Bosch uit. ‘Hoe navigeer je door data en hoeveel tekst laat je zien? Is de Google-manier, veel links met korte stukjes tekst een goede manier om door museadata te browsen? Hoe multimediaal zijn je data? Wil je veel meer sturing aanbrengen? Wil je eerst het profiel van de persoon detecteren of als je de persoon al kent, wil je verder gaan bij waar hij was? Dat zijn allemaal vragen die gesteld worden.’ Inhoudelijk lijkt dit onderzoek op wat Van den Bosch altijd al doet. ‘We kunnen nu al onze methoden die we voor het Nederlands hebben ontwikkeld in het algemeen op de data van Naturalis toepassen, zodat we direct weten van al die zinnen hoe ze structureel in elkaar zitten.’ Organisatorisch is het even anders. Niet alleen zullen de onderzoekers op locatie, bij Naturalis, werken, ze zullen ook vanaf dag 1 aan de slag gaan met de data. Dat verschilt van regulier onderzoek waar pas na een jaar concreet wordt wat precies onderzocht gaat worden en op welke manier. | |
Logboeken en sterk waterDoel van MITCH is onderzoek naar en ontwikkeling van technieken om kennis die nu nog opgesloten zit in de enorme collectie van het museum, te openbaren. Naturalis bezit miljoenen objecten, van insecten en gewervelde dieren tot fossielen en edelstenen. Daarnaast beschikt het museum over een groot aantal documenten waarin deze collectiestukken worden beschreven: logboeken, etiketten, wetenschappelijke publicaties, taxonomieën, tentoonstellingsteksten, enzovoort. Deze documenten vormen de sleutel tot een waardevolle schat aan informatie en kennis over de collectie. Er is echter één probleem: veel informatiebronnen zijn alleen beschikbaar in papieren vorm en de data die al wel gedigitaliseerd zijn, zijn niet gestandaardiseerd. Hierdoor wordt de toegang tot de in de documenten aanwezige kennis bemoeilijkt. ‘Erfgoedinstellingen zijn al een aantal jaren bezig met het digitaliseren van materiaal’, vertelt Van den Bosch. Een enorm tijdrovende klus met een | |
[pagina 80]
| |
niet geheel bevredigend resultaat. Als je iets digitaal hebt, dan kun je daar een leuke website van bouwen waarin alles ontsloten is.’ Zulke websites schieten als paddenstoelen uit de grond. Het Nederlandse koloniale verleden, genealogische data en kadastergegevens zijn tegenwoordig allemaal online. De hoeveelheid data groeit, maar de methode om daarin gericht te zoeken ontbreekt nog. ‘De beschikbare methodes lijken op Google: je tikt een woord in en je krijgt alle documenten terug waarin dat woord voorkomt, maar je kunt geen vragen stellen. Als je bijvoorbeeld biografische informatie over iemand wil hebben, dan kun je naar de naam van die persoon gaan zoeken, maar dat levert je in het Nationaal Archief of de Koninklijke Bibliotheek honderd documenten op en wat dan? Dan heb je nog steeds hetzelfde probleem, in feite ben je niet verder dan je in de jaren tachtig was in de bibliotheek. Toen begon ook alles al ontsloten te worden, maar op het niveau van trefwoorden, titels, auteurs, niet op de inhoud, niet op de documenten zelf.’ Ook Naturalis kent dit probleem van waardevolle, doch niet ontsloten informatie. Neem de prachtige collectie logboeken van biologen en geologen die meegingen met de VOC en in het verre Oosten nieuwe dieren aantroffen. ‘Die teksten bevatten namen van dieren, namen van de wetenschappers zelf, namen van vindplaatsen, beschrijvingen van hoe het eruit zag, hoe de dieren eruit zagen, wat ze deden, tijdsaanduidingen. Vaak is de tekst maar half correct of de spelling ouderwets, maar er staat wel een heleboel informatie in. Informatie over entiteiten en over relaties tussen die entiteiten waar je niet op kan zoeken. Dat is nu juist waar erfgoedinstellingen belangstelling voor hebben. Hun conservatoren en hun publiek willen nou juist wel kunnen zoeken op die meer verhalende informatie.’ Men noemt dat wel eens het verschil tussen kennis en informatie. Van den Bosch legt uit dat er drie lagen zijn: data, informatie en kennis. ‘Kennis legt vast wat de entiteiten en de relaties daartussen, tegenwoordig ook wel ontologieën genoemd, zijn. In Naturalis vind je de natuurwetenschappelijke historie van Nederland terug op sterk water en in logboeken, waarin al die relaties nog besloten liggen. Zo'n logboek is van een natuurvorser geweest, daarin beschrijft hij de vondst van een bepaald dier voor het eerst. Dat dier staat ook in een potje op verdieping nummer x.12 van de grote grijze toren van Naturalis. Op dat ene dier is vervolgens alle encyclopedische kennis gebaseerd. Wat de mensen van Naturalis willen, is grip krijgen op die data.’ | |
Digitale verhalenNaturalis is al ver met wat Van den Bosch stap 0 noemt, het digitaliseren van de data. ‘In ons project houden we ons bezig met stap 1 en 2: het volledig lezen | |
[pagina 81]
| |
van die digitale bestanden en daarin alle namen identificeren van alle entiteiten. Het gaat daarbij niet alleen om de namen van dieren die een redelijk gestandaardiseerd patroon volgen, maar ook om namen van vinders, vindplaatsen en momenten van vinden.’ Tegelijkertijd vragen de onderzoekers data aan de taxonomen van Naturalis. ‘Er zijn daar mensen die daadwerkelijk wijzigingen aanbrengen in de wereldtaxonomie van dieren. Als zij in Leiden besluiten dat ze een nieuwe mot hebben gevonden, dan wordt dat een nieuw takje in die taxonomie en dat wordt wereldwijd vastgelegd in tijdschriften en ook in het systeem zelf.’ En dan zijn er nog de etiketten, die op de potjes zijn geplakt of onder de vlindertjes zijn geprikt, waarop ook heel veel informatie staat. ‘Als we die informatie kunnen herkennen in alle half en volledig gestructureerde teksten, dat wil zeggen als we daarin alle namen kunnen identificeren door een namenlijst te pakken, logboeken door te zoeken, etiketjes door te zoeken, spelfouten op te lossen of incomplete informatie aan te vullen, verrijken en completeren we de data. We maken de data helemaal digitaal zoekbaar, zodat een conservator kan zeggen: “Geef mij alle dieren die in die regio zijn gevonden door alle tijdsperiodes heen” of “Geef me alle dieren binnen deze familie ongeacht door wie, waar of wanneer gevonden” of “Geef me van deze vinder dat ene kikkertje.” Nu is dat handwerk dat alleen uitgevoerd kan worden door enkele specialisten die daarvoor de toren in moeten. Ze weten niet eens hoeveel ze hebben; het gaat om miljoenen dieren waarvan men grofweg weet “dat daar nog een doos met krokodillen staat”. Dit begint allemaal pas langzaam gedigitaliseerd te worden.’ Naturalis werkt nu nog grotendeels met papieren indexeringssystemen. Nu ze, net als de Koninklijke Bibliotheek, het Nationaal Archief en de Rijksdienst voor het Oudheidkundig Bodemonderzoek, stap 0 gezet hebben, willen ze van informatici weten hoe de volgende stappen te zetten. ‘Hoe creëer je een systeem met meer dan alleen een “Google-functionaliteit”, zodat je ingewikkelde vragen kunt stellen waar je ook meteen een verhaal mee kunt bouwen. Dat is het uiteindelijke doel: het maken van digitale verhalen. Je moet aan zo'n systeem kunnen vragen: “Vertel mij nou eens alles van dit dier.” Het systeem zegt dan: “Deze informatie vind ik in de encyclopedie, vervolgens kan ik je vertellen dat dit dier met een foto en een onderschrift in de tentoonstellingsruimte staat. Dit dier behoort tot deze familie en is gevonden door meneer die en die, een beroemde zeventiende-eeuwse natuurvorser.” Dat alles wordt gecomplementeerd met een foto van een pagina uit zijn logboek, waarin hij in hanenpoten of in sierlijke letters beschrijft waar en hoe hij dat dier vond.’ | |
[pagina 82]
| |
VerwachtingenHet lijkt misschien alsof de medewerkers van Naturalis van de MITCH-onderzoekers alles op een presenteerblaadje krijgen aangereikt, maar dat moet Van den Bosch toch nuanceren. ‘Het is niet zo dat wij alles kant-en-klaar afleveren. De mensen in Naturalis verwachten dat ook niet van ons. Onze bijdrage zit in het laten zien van de mogelijkheden om de data te verrijken, nadat er nog veel meer is gedigitaliseerd. Het gaan dan om een totale ontsluiting. Vergelijk het met een bibliotheek waar je alle boeken ook aan de binnenkant zou kunnen ontsluiten. Dat je op een trefwoord zoekt en dan niet alleen boeken terugkrijgt, maar ook pagina's waarop dat trefwoord staat, zoals je op internet digitale pagina's ontsluit.’ In de vier jaar dat het project duurt, werken de Tilburgse onderzoekers een paar gevallen uit en tonen ze de mogelijkheden aan, zodat Naturalis daar zijn digitalisering op kan afstemmen. Die digitalisering is voor een museum als Naturalis een zwaar project, legt Van den Bosch uit. ‘Als ze honderd etiketjes van vlinders moeten fotograferen, moeten ze heel voorzichtig de spelden losmaken en daarna heel voorzichtig de etiketjes eraf halen zonder dat die vlinders uit elkaar vallen. Nadat die honderd etiketjes op een papier zijn gelegd en zijn gefotografeerd, moeten ze weer allemaal worden terug geprikt. Daar komt nog eens bij dat ze volgens arbo-regels niet langer dan twee uur in de vocht- en temperatuurgeregelde ruimtes zonder ramen mogen werken. Het grote handwerk zit daarin. Dat doen wij niet. Wij laten zien wat er mogelijk is met de verschillende kleine digitaliseringsprojecten die er al liggen, amfibieën en reptielen die in de Amazone zijn gevonden en vlinders en libellen, heel specifieke verzamelingen.’ Niet alle conservatoren zijn even enthousiast zijn over deze digitale mogelijkheden. Er is ook scepsis, weet Van den Bosch. ‘Ik denk dat dat wel terecht is. De manier van werken van de conservatoren zal niet veel veranderen door ons werk.. We ontsluiten data voor hen, maar een conservator zal niet op een andere manier een nieuwe diersoort gaan introduceren in het vakgebied. Dat vergt natuurlijk al zíjn expertise over de wijze waarop je dieren beschrijft. Ons project gaat daar niet over, maar over de ontsluiting, de presentatie en het zoeken. De data worden verrijkt en straks wordt personalisatie in het zoeken mogelijk. Dat wil zeggen dat je een verhaal kunt vertellen gericht op een bezoeker van twaalf, maar ook een verhaal gericht op een conservator en iedereen daartussen in.’ Twee taxonomen van Naturalis begeleiden het MITCH-project. ‘Zij snappen goed wat we ze kunnen bieden. Ze hebben geen overdreven verwachtingen, maar zien dat wij ze kunnen helpen in het analyseren van reusachtige hoeveelheden materiaal. Iets wat ooit alleen papier was of alleen ongecorrigeerd gedigi- | |
[pagina 83]
| |
taliseerd materiaal wordt nu ontsloten op een rijke manier. Je weet straks niet alleen dat er een bepaald woord in staat, je weet ook dat het een vindplaats is en je koppelt dat misschien zelfs wel aan coördinaten, zodat je kunt zeggen: “Geef me in een straal van tweehonderd kilometer rondom deze plaats maar eens alle gevonden dieren.” We bieden veel meer overzicht, nu tast men vaak nog in het duister.’ | |
Dienende rolHet is de bedoeling dat het MITCH-onderzoek tools gaat opleveren die Naturalis kan gebruiken. ‘Maar we zijn geen commerciële suppliers van software. We ontwikkelen het als onderzoekers, omdat er ook nog een onderzoeksvraag in zit, namelijk: kunnen we inderdaad op een betrouwbare manier die data verrijken.’ Betrouwbaarheid is voor Naturalis uiteraard belangrijk, maar Van den Bosch weet nu al dat ze met hun computerprogramma geen honderd procent accuraatheid kunnen garanderen. Dat is het verschil met handwerk, waarbij wel honderd procent correctheid nagestreefd wordt. ‘Een conservator zal natuurlijk wel eens een beoordelingsfout maken, maar bij het analyseren van data is een persoon altijd heel precies. Voordeel van een computer is dat hij tienduizend keer zoveel kan doen, zij het met een precisie die niet honderd procent is. Een computer kan, als hij op basis van een aantal voorbeelden is getraind, bijvoorbeeld in het detecteren van namen in teksten, worden losgelaten op twintigduizend andere teksten. Die haalt hij er dan even in een uurtje doorheen.’ De onderzoekers zijn vervolgens geïnteresseerd in de soort fouten die optreden. Want op basis daarvan kunnen ze de computer zo instrueren dat hij betrouwbaarder wordt. ‘We willen het lerende systeem verfijnen, zodat het ook bijvoorbeeld kan zeggen tegen de expert: okay, ik heb deze naam honderd keer gevonden, maar over deze vijftig voorkomens van de naam ben ik niet zeker. Kijk daar eens naar. Het computerprogramma heeft een heel dienende rol, het neemt niet hun werk over. We zeggen alleen maar: jij zult in je eentje niet in staat zijn om alle namen met je muis aan te klikken en daarvan te zeggen: dit is een plantennaam, dit is een vindersnaam en dit is de plaats waar het is gevonden. Dat doen wij wel, alleen we zullen het niet honderd procent doen. Geef ons eerst eens een paar honderd voorbeelden van dat soort documenten, dan trainen wij ons lerend systeem en dan passen wij het toe op de resterende twintigduizend documenten, waar je handmatig nooit doorheen zou komen.’ Deze wijze van ontsluiten is ook weer bruikbaar voor andere erfgoedinstellingen. ‘Er is een grote interne coherentie in het netwerk van projecten.’ De tien CATCH-teams zullen ook regelmatig samenwerken en ervaringen uitwisselen. ‘Wij gaan waarschijnlijk samenwerken met een handschriftgroep die ook verrijking | |
[pagina 84]
| |
doet, zodat we kunnen laten zien dat je met automatische technieken handschriften kunt herkennen. Ook gaan we samenwerken met een metadatagroep die ons nog eens gaat vertellen hoe wij onze metadata het beste kunnen organiseren, want wij werken eigenlijk al een beetje vooruit. Misschien gaan we zelfs samen met een presentatiegroep een demonstratie maken van een ontsluiting van de amfibieën- en reptielendatabase die we nu aan het bekijken zijn. Het zou ook wel een kiosk of een klein zuiltje in het museum kunnen worden. Ik denk dat Naturalis dat graag zou willen.’ Zelf is Van den Bosch onlangs met zijn kinderen in Naturalis geweest. Dan wordt het belang van dit onderzoek mooi duidelijk. ‘De oudste van zeven vond het museum heel interessant. En hij beseft nog niet dat er, behalve de honderden opgezette dieren in Naturalis zelf, nog eens miljoenen dieren worden bewaard in die grote toren naast het museum. Daar kom je als bezoeker ook niet in. Zijn vragen gaan steevast over dinosauriërs en oermensen. Hij wil bijvoorbeeld weten of er nog dinosauriërs waren toen er al mensen waren. Een antwoord daarop moet in principe gehaald kunnen worden uit bronnen van Naturalis.’ |
|