Nieuwsbrief
19 mei 2011
De DBNL scant miljoenen pagina’s boeken en tijdschriften (+2 oproepen)
De DBNL scant miljoenen pagina’s boeken en tijdschriften (+2 oproepen)
De DBNL zal tot eind 2012 meer dan 30 000 titels scannen. De DBNL geeft daarmee gehoor aan een vurige wens van veel gebruikers om snel meer teksten beschikbaar te krijgen ‘desnoods alleen als scan’. Daarbij doet ze een oproep aan gebruikers en auteurs. Ondertussen zal ze doorgaan met de verwerking van deze scans naar gecorrigeerde teksten.
Vaste bezoekers van de DBNL-website was het al opgevallen: de afgelopen maanden zijn er vele boeken en tijdschriften in de website verschenen met de aanduiding ‘alleen scans beschikbaar’. Vandaag komen er weer meer dan 2000 boeken en oude tijdschriftjaargangen bij. Tegen het einde van 2012 zal het aantal gescande titels tot meer dan 30 duizend oplopen. Het betreft voor het merendeel teksten uit het z.g. rechtenvrije domein, en daarnaast enkele teksten waarover met de auteur en de tijdschriftredacties en hun uitgevers afspraken zijn gemaakt.
Een kleine greep uit de titels die vandaag online komen:
Beknopte schoolflora voor Nederland van H. Heukels en W.H. Wachter uit 1936
Handboekje van Latijnsche spreekwoorden en citaten uit 1923
Lijst der meest gebruikelijke basterdwoorden van Adam Strokel uit 1887
Een vertaling van Augustinus’ Belijdenissen uit 1924
Journalistiek werk van Frank van der Goes uit 1940
Het ezelken van Cyriel Buysse uit 1910
Journalistieke rolmops van J.C. Schröder uit 1913
Donauvaart. 2500 k.m. per canoe van G.S. Goemans uit 1929
Keus uit de werken van burgemeester Jan van Rijswijck uit 1910
Hendrik Consciences werk in Franse vertaling uit ca. 1885
De Taal- en dichtkundige verscheidenheden (1820-1823) inclusief aanvullingen (1824-1825) van Willem Bilderdijk
Amsterdamsche tafereelen van Jan ter Gouw uit 1876
Afleveringen van Nijhoff’s Index (op periodieken van algemeenen inhoud)
En jaargangen van o.a. De Tijdspiegel, Noord en Zuid, Jaarlijksche Boekenschouw enz. enz.
Titels die al eerder online kwamen:
Hieronymus van Alphens Dichtwerken
5 delen Verspreide geschriften van Allard Pierson
Guido Gezelles Dichtwerken
E. du Perrons, De smalle mens
Te Winkels De grondbeginselen der Nederlandsche spelling, en vele andere pamfletten en studies over spelling
Verdams Middelnederlandsch handwoordenboek
6 delen Bijbelsch magazijn voor alle standen (1864-1869)
Samuel van Houtens Vijfentwintig jaar in de Kamer (1869-1894)
en vele jaargangen van o.a. De Navorscher, De Katholiek, Graauw’s Nederlandsche keurbibliotheek en De Huisvriend
Zie voor het volledige overzicht van de werken en tijdschriften waarvan op dit ogenblik ‘alleen scans beschikbaar’ zijn:
Van deze titels is een pdf beschikbaar en ook een tekstbestand (.txt) waarin het niet gecorrigeerde ocr-resultaat kan worden geraadpleegd. ‘Niet-gecorrigeerd’ houdt in dat de tekstbestanden niet als heel betrouwbaar kunnen worden beschouwd. Om deze reden heeft DBNL deze ‘vuile’ bestanden niet opgenomen in de reguliere zoekmachine en ook niet in de zoekmachine waarmee geavanceerd in teksten kan worden gezocht . In de toekomst zullen de teksten wel in deze zoekmachines doorzoekbaar worden gemaakt, maar telkens met de waarschuwing dat in de zoekresultaten ook ‘vuile ocr’ opgenomen is - de gebruiker heeft dan de mogelijkheid om alle niet gecorrigeerde bestanden buiten beschouwing te laten. Met name voor wetenschappelijk onderzoek is het van het grootste belang dat kan worden gezocht in accurate tekstbestanden.
De DBNL heeft de afgelopen jaren naam opgebouwd als een website waar een groot aantal bronnen uit de Nederlandstalige cultuurgeschiedenis in zo goed als foutloze transcripties te vinden is. Vorige maand bereikte DBNL het aantal van 2 miljoen hoogwaardig gedigitaliseerde pagina’s. ‘Hoogwaardig’ houdt in dit geval in dat de letterlijke weergave van de tekst dicht in de buurt van 100% betrouwbaar ligt, en dat de teksten zijn opgenomen in het XML-bestandsformaat, wat langdurige en veelzijdige bruikbaarheid garandeert.
DBNL gaat in een versneld tempo door met het maken van betrouwbare bestanden - het volgende miljoen pagina’s zal wsl. niet meer dan anderhalf jaar vergen -, maar het scannen gaat nog altijd aanmerkelijk sneller, vandaar dat we wel spreken over ‘de DBNL van twee snelheden’. Uiteindelijk hopen we zo goed als alle teksten die nu gescand worden uiteindelijk ook in betrouwbare transcripties te kunnen aanbieden. Met het scanproject dat vandaag wordt gepresenteerd zijn tot het einde van 2012 ca. tien miljoen pagina’s gemoeid.
Oproep 1: oude boeken en tijdschriften gevraagd
Gebruikers van de DBNL zouden kunnen helpen bij het versneld uitbouwen van de website met gescande teksten. Beschikt u over een voorraad boeken en/of tijdschriften die nu nog ontbreken en die u eventueel wilt aanbieden om door ons gescand te laten worden, dan kunt u dat in een mail bekend maken via dbnl.redactie@kb.nl. Boeken en tijdschriften uit de periode vóór 1940 hebben daarbij een lichte voorkeur.
N.B. De wijze van scannen is ‘destructief’ wat zoveel inhoudt dat de rug van de boeken af gesneden wordt en het boek dus niet behouden blijft. Dit levert het beste resultaat tegen de laagste kosten op.
Oproep 2: aan auteurs die hun oudere titels willen onderbrengen in DBNL
Bijna dagelijks wordt de DBNL benaderd door auteurs met het verzoek of hun boeken en tijdschriftbijdragen op de site vermeld kunnen worden. Daarnaast zijn er ook tal van auteurs die spontaan hun teksten aanbieden om in de site te worden opgenomen.
Per heden wil DBNL aan dergelijke wensen ook uitdrukkelijker ruimte gaan bieden. Auteurs die graag hun teksten in de vorm van scans in de site opgenomen willen zien, hoeven alleen maar een exemplaar naar DBNL (Postbus 78, 2300 AB Leiden, Nederland) te sturen; in een begeleidend schrijven zal hij of zij dienen aan te geven dat de tekst beschikbaar is voor raadpleging in de DBNL onder de voorwaarden die daarvoor al sinds lange tijd van kracht zijn. De DBNL zal een en ander in een overeenkomst formaliseren. DBNL moet er daarbij van uit kunnen gaan dat de auteur daarvoor, voor zover nodig, ook toestemming heeft van de uitgever. Wil een auteur de beschikbaarstelling beëindigen, dan kan de overeenkomst eenzijdig opgezegd worden.