Algemeen letterkundig lexicon
(2012-....)–Anoniem Algemeen letterkundig lexicon– Auteursrechtelijk beschermdngramEtym: n = afkorting van ‘nummer’; gram < Gr. gramma = letter(teken), geschrift. Ngram – vaak ook gespeld met koppelteken als n-gram – is een begrip dat in de bredere context van de digital humanities gebruikt wordt in de moderne computer-ondersteunde stilistiek. Het speelt ook een belangrijke praktische rol in allerlei vormen van automatische taalverwerking, zoals spraakherkenning, spellingcorrectoren, plagiaatdetectoren, het ontcijferen van cryptografie, e.d. Een ngram is een reeks van een bepaald aantal (aangeduid als N) op elkaar volgende taalelementen van hetzelfde niveau in een gegeven tekst of verzameling teksten. Dit kan om letters, klanken, lettergrepen of woorden gaan. Zo kan bijv. men nagaan welke aaneensluitende combinaties van twee (of drie, vier, vijf, enz.) letters het vaakst voorkomen in een gegeven taal. De meest tot de verbeelding sprekende toepassingen van het begrip betreffen reeksen van aaneensluitende woorden: een ngram is dan een opeenvolging van N woorden. Volgens de waarde van N kan men dan spreken van 2-grammen, 3-grammen, 4-grammen, enz.; deze kunnen ook benoemd worden als bigrammen (Gr. bi- = twee), trigrammen (Gr. tri- = drie), tetragrammen (Gr. tetra- = vier), enz. Als N 1 bedraagt, heeft men het soms over een unigram (Lat. unus = een): bijv. de individuele woorden in de tekst, elk apart beschouwd. Zo bevat de zin ‘Ik ga nu naar de supermarkt’ zes unigrammen (‘ik’, ‘ga’, ‘nu’, ‘naar’, ‘de’, ‘supermarkt’), vijf 2-grammen of bigrammen (‘ik ga’, ‘ga nu’, ‘nu naar’, ‘naar de’, ‘de supermarkt’), vier 3-grammen of trigrammen (‘Ik ga nu’, ‘ga nu naar’, ‘nu naar de’, ‘naar de supermarkt’), drie 4-grammen of tetragrammen (‘Ik ga nu naar’, ‘ga nu naar de’, ‘nu naar de supermarkt’), enz. Daarbij kan men dan nagaan, voor elk ervan, hoe vaak ze voorkomen in andere teksten, waarbij de software ook rekening kan houden met spellingvarianten. Dit type van analyse blijkt vooral nuttig als het wordt toegepast op langere teksten en tekstverzamelingen (corpus-1), om dan met behulp van statistische technieken op zoek te gaan naar bepaalde typische patronen in woordkeuze en woordencombinaties (collocaties). In de literatuurstudie kan dit helpen o.m. bij het identificeren van anoniem overgeleverde teksten, of bij het objectief kwantificeren van hoe ‘origineel’ of ‘creatief’ de stilistische keuzes zijn in een tekst of bij een auteur (bijv. Cohen 2019). Men gaat dan na hoe frequent bepaalde ngrammen zijn in de tekst in vergelijking met een groot referentiecorpus. Sommigen in dit onderzoeksveld gebruiken de (Engelse) termen ‘chunk’, ‘cluster’, ‘lexical bundle’ of ‘speech bundle’ eerder dan ‘ngram’, al zijn deze niet steeds 100% synoniem. Dergelijke analyses werden op een basisniveau toegankelijk gemaakt voor de algemene gebruiker. Google heeft voor een aantal grotere talen een tool ontwikkeld – de zgn. Google Books Ngram Viewer (https://books.google.com/ngrams) – waarmee men voor de teksten die bevat zijn in het Google Books tekstcorpus (of een deel ervan) op een tijdlijn kan aflezen wanneer een enkel woord (N=1) of een gegeven woordencombinatie (N>1) voor het eerst voorkomt en hoe de relatieve frequentie ervan evolueerde. Ook de DBNL biedt een eenvoudig te gebruiken ‘ngram viewer’-tool (https://www.dbnl.org/ngram-viewer/) waarmee men alle door de DBNL gedigitaliseerde teksten kan doorzoeken op individuele woorden en woordencombinaties. Het resultaat van de zoekactie wordt dan gepresenteerd in de vorm van een grafiek met op de x-as de dateringen van de teksten waarin het gezochte ngram (woord of woordencombinatie) voorkomt, en op de y-as het aantal vindplaatsen voor dat ngram in teksten uit het desbetreffende jaar. Zo men wil, kan men dan doorgaan naar de vindplaatsen van de woorden in de teksten door te klikken op één van de bolletjes waaruit de grafiek is opgebouwd. Lit: M. Mahlberg, ‘Clusters, key clusters and local textual functions in Dickens’ in Corpora 2 (2007), 1–31 M. Stubbs, ‘Quantitative data on multi-word sequences in English: the case of the word “world”’ in M. Hoey e.a., Text, discourse and corpora: Theory and analysis (2007), p. 163-189 D. Jurafsky & J. Martin, Speech and language processing (20082) U. Römer, ‘Establishing the phraseological profile of a text type. The construction of meaning in academic book reviews’ in English Text Construction 3 (2010), p. 95-119 M. Bednarek, ‘The language of fictional television. A case study of the ‘dramedy’ Gilmore Girls’ in English Text Construction 4 (2011), p. 54-84 I. Cohen, Tropes in translation. An analysis of Dutch creative collocations and compounds translated into English (diss., 2019) M. Mahlberg e.a., ‘Speech-bundles in the 19th-century English novel’ in Language and literature 28 (2019), p. 326-353.
|