● Woordfrequentie
Zo'n systeem van woordherkenning staat of valt volgens Van Noortwijk met de mate van inzicht in het woordgebruik op drie gebieden: de wetgeving, de rechterlijke uitspraken en het gewone geschreven Nederlands. Om de verschillen in kaart te brengen tussen die drie soorten woordgebruik, maakte de onderzoeker gebruik van drie woordenlijsten. Die voor algemeen Nederlands vervaardigde hij met behulp van het Instituut voor Nederlandse Lexicologie in Leiden. Eigenhandig stelde hij de woordenlijst voor wetgevingsteksten en rechterlijke uitspraken op. Zo'n lijst geeft een opsomming van alle gebruikte woorden in een aantal publikaties en meldt per woord hoe vaak het voorkomt. De volgorde van de woorden op de lijst wordt bepaald door het aantal keren dat ze voorkomen. Bovendien staat erop hoe elk woord verdeeld is over de geturfde teksten: staan alle omdats op één pagina, of komt dat woord zo'n beetje om de tien bladzijden voor.
Wat meteen opvalt als die drie lijsten naast elkaar liggen, is het enorme onderlinge verschil, zowel in het woordgebruik zelf als in het aantal keren dat woorden voorkomen. Bij de vijftig meest gebruikte woorden in de wetgeving vinden we artikel, lid en gemeente. Persoonlijke voornaamwoorden als hij komen nauwelijks voor; veeleer staat in een wettekst 22 keer minister. Onder de honderd meest gebruikte woorden in rechterlijke uitspraken registreert Van Noortwijk: beroep, cassatie, vordering en beschikking. Algemeen Nederlands ligt daarentegen meer in de orde van worden, kunnen, andere en goed.
Na het bekijken van het woordgebruik kan Van Noortwijk, wanneer hij een willekeurige tekst woord voor woord turft, statistisch aantonen om welke soort tekst het waarschijnlijk gaat. Zonder de tekst zelf te lezen, ziet hij aan het woordgebruik op de eerste bladzijden van Elsschots Kaas dat het zeker niet om een wettekst of een rechtbankuitspraak gaat. Deze kennis van het woordgebruik biedt Van Noortwijk een instrument voor het zoeksysteem dat momenteel wordt ontwikkeld. De computer zal vragen om een voorbeeld van wat de jurist zoekt. Die voert een standaardarrest in. De computer analyseert vervolgens alle woorden die daarin voorkomen, en kan dan aan de hand van de combinatie van onder andere woordgebruik, woordfrequentie en plaatsing in de tekst opsporen welk artikel in een wettekst of welke rechterlijke uitspraak precies wordt gezocht. Zo vinden de onderzoeksresultaten van Van Noortwijk een praktische toepassing.
C. van Noortwijk, Het woordgebruik meester. Lelystad, Koninklijke Vermande, 1995. ISBN 9054582618.