Nederlands tekstcorpus
Het instituut voor Nederlandse Lexicologie INL biedt, aldus een persbericht, u de mogelijkheid een Nederlands tekstcorpus bestaande uit ca. 5 miljoen woorden te raadplegen via het computernetwerk. Dit corpus heeft een andere samenstelling dan dat op de multilinguale ECI/MCI CD-ROM, die gedistribueerd wordt dor het Linguistic Data Consortium en ELSNET. De teksten zijn ontleend aan o.a. boeken, tijdschriften, kranten, en TV-nieuwsuitzendingen. Ze betreffen verschillende deelgebieden, zoals journalistiek, politiek, milieu, linguïstiek, vrije tijd. Op basis van deze parameters kan men eenvoudig subcorpora definiëren. Het opvraagsysteem stelt u in staat te zoeken naar afzonderlijke woorden of naar woordpatronen, inclusief enige vooraf gedefinieerde syntactische patronen, die door de gebruiker gewijzigd kunnen worden. Zoekacties zijn mogelijk op de niveau's van woordvorm, lemma (trefwoord) en woordsoort, elk afzonderlijk, maar ook gecombineerd in één zoekopdracht met gebruikmaking van zgn. Boolese operatoren en proximity searches. Op verschillende niveau's van de zoekactie worden gegevens verstrekt over frequentie en spreiding over de bronnen. Het resultaat van een zoekvraag is meestal een lijst van aan de zoekvraag beantwoordende items, of een reeks concordanties (woorden in context) met een variabele, door de gebruiker in te stellen textuele context. Diverse sorteermogelijkheden kunnen uw analyse van de resultaten ondersteunen. Binnen beperkingen die door het auteursrecht worden opgelegd, kunnen resultaten naar uw eigen computer worden getransporteerd met e-mail. Het is niet toegestaan volledige teksten of substantiële tekstgedeelten over te halen.
Er zijn nauwelijks extra correctieslagen uitgevoerd. Dit geldt zowel voor de teksten zelf, als voor de linguïstische gegevens woordsoort en lemma.