| |
| |
| |
Notitie H. Brandt Corstius Lange Woorden
1 potentiële lange woorden
Algemeen wordt erkend, op wat gemor uit duistere hoeken na, dat er geen maximum is aan te geven voor de lengte van een zin in een natuurlijke taal, zeg in het Nederlands. Geldt dit ook voor woorden?
Het antwoord op die vraag zou best eens van taal tot taal kunnen verschillen, en we beperken ons dan ook verder tot het Nederlands. Is er een maximale lengte voor Nederlandse woorden?
De begrippen ‘woord’ en ‘woordlengte’ definiëren we grafemisch: een ‘woord’ is een opeenvolging van letter- en eventueel andere tekens tussen twee spaties, ‘woordlengte’ is het aantal lettertekens in een woord.
Twee groepen van dingen bieden zich aan om met steeds langere namen benoemd te worden: getallen en scheikundige verbindingen. De getalsnamen zijn in het Nederlands tot het getal 1099 geregeld [5], maar met een kleine ingreep is het systeem onbeperkt uitbreidbaar. De scheikundige namen stuiten in de praktijk op zekere grenzen (gegeven een eindig aantal atomen), maar aangezien we ook over scheikundige verbindingen kunnen spreken die niet bestaan, is hier eveneens onbeperkte aangroeiing mogelijk. Toch zijn de wiskundige en chemische combinaties enigszins onnatuurlijke kandidaten voor onbeperkt lange woorden. Als we naar echte eigennamen van personen gaan is het al even eenvoudig steeds langere te verzinnen: in allerlei talen leven constructies die het voorgeslag tot de ne generatie noemen.
De gedachten gaan vervolgens uit naar voor- en achtervoegsels die onbeperkt vaak herhaalbaar zijn. Men kan argumenteren dat vóór de woorden ‘antiek’, ‘neus’ en ‘grootvader’ willekeurig vaak ‘nep’, ‘fop’ en ‘over’ gezet kan worden. Over de zinvolheid van ‘nepnepnepantiek’ schrijf Ziff [9], bij wie het overigens een kwestie van lange zinnen in het Engels wordt, omdat ‘fake fake fake antique’ daar immers als vier woorden geschreven wordt. Een interessante constructie is die van de reeks ‘antin raket-wapenn omdat die niet met een reguliere grammatika is te beregelen, maar een contextvrije grammatika vereist [6], om het aantal keren ‘anti’ gelijk te maken aan het aantal keren ‘wapen’. Wie over de vorming van zulke samengestelde zelfstandige naamwoorden nadenkt zal, hoe lexicalistisch hij ook wil werken, er niet onderuit kunnen ze transformationeel af te leiden. En daar ligt dan ook de rijkste en onweerlegbaarste bron van potentieël onbegrensde woorden in het Nederlands. In het straks te bespreken corpus treffen we bijvoorbeeld deze vier woorden aan:
weg-met-deze-maatschappijers
hoe-bouw-ik-mijn-eigen-raket-verhalen
‘nou en...’-gezicht
zie-je-nou-wel-vooroordeel
die ons de weg wijzen hoe uit een zin (die onbeperkt kan groeien) een woord is op te bouwen (dat daarmee ook onbeperkt kan groeien). Het is gebruikelijk om tussen de woorden van zo'n ingekapselde zin koppeltekens te zetten, maar uit het derde voorbeeld blijkt dat ook aanhalingstekens van een zin een woord-deel kunnen maken.
Lange woorden zijn al vijfentwintig eeuwen door schrijvers gebruikt als komisch element: W.F. Hermans (een woord met 46 letters), Joyce (woorden van 100 letters), Shakespeare (27 letters), Rabelais (50 letters) en Aristophanes (170 letters). Zie voor details [3] en [4]. Ik neem aan dat bij de lange woorden uit de recente frequentietelling, die wij hier gebruiken voor het onderzoek naar actuele lange woorden, deze bijbedoeling geen rol heeft gespeeld. Alle cursief gezette woorden zijn uit deze bron afkomstig.
| |
2 actuele lange woorden
In een recente frequentietelling van geschreven en gesproken Nederlands anno 1970 [2] zijn om technische redenen de woorden van meer dan 25 tekens in een aparte lijst ondergebracht. Omdat in die telling elk woord wordt gevolgd door een spatie en een codegetal van drie cijfers, betekent dit dat de lengte van deze ‘lange’ woorden meestal meer dan 21 letters is. Het zijn er 2182. Die lijst dient ons als basis voor een onderzoek naar echte in de tekst voorkomende ‘lange woorden’. Van de 720 000 woorden zijn er 2182 lang, ofwel 0,3%.
| |
| |
Hiervan zullen we er straks 925 ‘echt’ noemen (geen vreemde taal, geen eigennaam), dit is 0,1%. Ter vergelijking: in een krantentelling (1) vormden de woorden met meer dan 21 letters 0,2% van de tekst. In Van Dale zijn 818 van de 192 000 woorden langer dan 21 letters (7), ofwel 0,4%. De gemiddelde woordlengte van een Van-Dale-woord is 10 letters, van een woordtype van de krantentelling 8 letters, van een krantenwoordteken 5 letters.
In 3 geven we de herkomst van de lange woorden uit de zeven subcorpora van de telling. Romantaal en gesproken taal blijken overeen te komen in een zeer laag aantal lange woorden. Kranten en opiniebladen zijn voor het leeuwendeel der lange woorden verantwoordelijk.
In 4 analyseren we de 2182 lange woorden. Met een strengere definitie van ‘Nederlands woord’ blijven er 925 over, bijna allemaal zelfstandige naamwoorden. In 5 bekijken we een groep van 50 woorden nader, die we ‘koppelwoorden’ noemen, en waarvan de vier woorden hierboven voorbeelden waren. We proberen iets over de syntaxis van koppelwoorden te weten te komen.
In 6 noemen we de langste woorden, al zal de vraag welk woord kampioen is pas beantwoord kunnen worden als u een bepaalde definitie van ‘woord’ en ‘woordlengte’ hebt aanvaard. Komt u, in gedrukte tekst, een nog langer woord tegen, dan houd ik mij aanbevolen! In 7 vermeld ik reacties van lezers op een eerder rondgestuurde voorpublicatie van dit artikel.
| |
3 herkomst van de lange woorden
In het algemeen dient men in de kwantitatieve taalkunde nauwlettend onderscheid te maken tussen typen en tekens. Maar de lange woorden die wij bekijken zijn bijna allemaal hapaxen zodat we typen en tekens in dit speciale geval kunnen vereenzelvigen. Dat de frequentie van lange woorden laag is heeft naast de goede reden (een algemeen opgemerkt verband tussen woordlengteen woordfrequentie, dat uit economische motieven te verklaren is) ook een technische reden: hoe langer een woord is, hoe groter de kans is op een drukfout (in de brontekst) of ponsfout (in de verwerking), en hoe groter de kans op een afbreking aan het eind van een regel. Zo vinden we het woord ‘verantwoordelijkheid’ op vier manieren afgebroken in de lijst van lange woorden waar het onafgebroken niet in thuis hoort. Overigens werd in de lijst een lang woord dat in meer dan één subcorpus voorkomt, ook meer dan één maal opgenomen. Dit maakt het mogelijk om na te gaan hoe de lange woorden over de subcorpora verdeeld zijn. In tabel 1 is dat aangegeven.
TABEL 1 herkomst van de lange woorden
dagbladen |
34% |
opiniebladen |
29% |
pop. wetensch. |
16% |
gezinsbladen |
13% |
romans |
4% |
spreektaal |
4% (academici 3%, anderen 1%) |
Daar elk van de zes subcorpora ongeveer even groot is (120 000 woorden) zien we dat de lange woorden zeer ongelijk verdeeld zijn: in dag-en opiniebladen komen ze acht maal zo veel voor als in romans en gesproken taal. Deze laatste twee genres blijken dus ook in het lage aantal woorden overeen te komen.
| |
4 analyse van de lange woorden
Onder de 2182 lange woorden zit veel kaf. Allereerst zijn er 30 woorden die er alleen in terecht kwamen omdat ze in hoofdletters geschreven waren, die door hun breedte als twee letters tellen. Dan zijn er 31 woorden die of kennelijk ten onrechte òf om voor mij onbegrijpelijke redenen in de lijst beland zijn.
Van de overgebleven 2121 woorden elimineren we eerst die in een vreemde taal. De meeste zijn uit het Engels (81), daarop volgen Duits (41), Frans (36), Latijn (13) en andere of niet thuis te brengen talen (8).
Van de resterende 2042 woorden laten we er 71 weg die titels - of koppen - zijn. De overblijvende 1971 woorden bestaan voor de helft uit eigennamen: 18 getalsnamen, 32 straatnamen, 271 persoonsnamen, en de overige 625 een allegaartje namen van ‘instellingen’. De onderscheiding engels woord/titel/naam van instellingen, en eigennaam/zelfstandig naamwoord is overigens niet altijd eenvoudig te maken.
In tabel 2 vindt men de analyse in percentages, met van elke categorie een voorbeeld.
Onderaan tabel 2 zijn de 925 echte lange woorden opgesplitst naar woordsoort. De ‘koppelwoorden’ willen we in de volgende pargraaf apart be- | |
| |
handelen. Van de zelfstandige naamwoorden valt op te merken dat de indruk wordt gewekt dat hun buitensporige lengte eerder wordt veroorzaakt door de lengte van de samenstellende delen dan door het grote aantal samenstellende delen: een woord als minislangenlerenmantelpak met vijf samenstellende delen wordt minder vaak ontmoet dan verzekeringsmaatschappij met twee samenstellende delen. Of die indruk juist is valt nog te bezien; daartoe moet natuurlijk eerst gedefiniëerd worden wat de samenstellende delen zijn [8].
De adjectieven zijn vaak combinaties als bureaucratisch-socialistische, jongere-gevoelige-passieve, of van werkwoorden afgeleid als losjes-georganiseerde, hooggeïndustrialiseerde.
TABEL 2 analyse van de lange woorden
hoofdletterwoord |
1 |
|
BELANGRIJKE |
onbegrijpelijk geval |
1 |
|
van William D. Kuik |
|
totaal technisch lang |
|
3 |
|
Engels |
4 |
|
diffusion of authority |
Duits |
2 |
|
die sich die Great-Society bisher in den Pelz gesetzt hat |
Frans |
2 |
|
la plus belle plage de la Mediteranée |
Latijn |
1 |
|
discordia maximae dilabuntur |
andere taal |
0 |
|
die badhuish ies iem Toornsjtraat |
|
totaal niet-Nederlands |
|
8 |
|
|
titels |
|
3 |
|
Ja wereld, nee wereld |
|
totaal geen Ned. woord |
|
14 |
|
getalsnamen |
1 |
|
honderd vijfenzestig |
straatnamen |
1 |
|
Derde Kattenburgerdwarsstraat |
persoonsnamen |
14 |
|
drs. J.P.A. Gruijters |
namen van instellingen |
29 |
|
De Zeven Provinciën |
|
totaal eigennamen |
|
44 |
|
zelfstandige naamwoorden |
36 |
|
diepvrieskreeftestaarten |
bijvoeglijke naamwoorden |
4 |
|
hooggeïndustrialiseerde |
werkwoorden |
0 |
|
achteruit geschoven |
andere woordsoorten |
0 |
|
overzichtelijkheidshalve |
‘koppelwoorden’ |
2 |
|
doe-het-zelf-televisie |
|
totaal echte woorden |
|
42 |
|
|
totaal Ned. woorden |
|
86 |
|
De werkwoorden zijn alle scheidbare (en inderdaad gescheiden, maar door de codering weer bijeengezet) met een lang partikel: gooide achterover, onderuit gehaald. Twee bijwoorden hadden productieve uitgangen: overzichtelijkheidshalve, veronderstellenderwijs. Als interjectie, uit populair-wetenschappelijk proza vinden we:
Seldrementsgansvijven.
De interessantste echte lange woorden zijn de ‘koppelwoorden’.
| |
5 koppelwoorden
Onder ‘koppelwoord’ verstaan we voorlopig: een Nederlands woord, geen eigennaam, met meer dan één koppelteken, dat niet kennelijk een nevenschikking is zoals jongere-gevoelige-passieve. Deze definitie is niet waterdicht. Zo valt het mooie ‘nou en...’-gezicht er niet onder, want het bevat maar één koppelteken, terwijl God-Vader-land-Oranje-mentaliteit genoeg koppeltekens heeft, maar de eerste drie delen vormen, zijnde een nevenschikking, geen koppelwoord, en het geheel is dus van dezelfde (niet koppel-)aard als ‘Oranje-mentaliteit’. Liever dan naar een waterdichte definitie te zoeken willen we eerst de losjesgedefiniëerde koppelwoorden bekijken om te zien wat zich daar allemaal achter verbergt. In de koppelwoorden is, op een enkel geval na, één deel als de kern aan te wijzen. Een eerste verdeling van de koppelwoorden is dan ook in drie categorieën: de kern staat voorop, achteraan, of geen van beiden. Een tweede verdeling van de koppelwoorden is die waarin de koppeltekens door spaties vervangen kunnen worden zonder dat de syntaxis van de zin daar vreemd van wordt (er is dus een aantal woorden in een zin door koppeltekens verbon- | |
| |
den), en die koppelwoorden die niet die eigenschap hebben. Grof gezien blijkt de eerste categorie van de eerste onderverdeling (koppelwoorden met kern voorop) samen te vallen met de eerste categorie van de tweede onderverdeling (syntactisch met spaties in plaats van koppeltekens). De koppelwoorden met de kern niet voorop zijn meestal syntactisch onaanvaardbaar als de koppeltekens door spaties worden vervangen.
| |
6 de langste woorden
U heeft er nu recht op te weten wat het langste echte woord in de tekst van 720 000 woorden was. Dat hangt af van uw opvattingen over wat een ‘woord’ is. Laten de koppelwoorden buiten beschouwing dan zijn de volgende woorden boven de dertig letters (het langste woord in van Dale, ‘wapenstilstandsonderhandelingen’, telt 31 letters), waarbij we de ‘ij’ als één letter tellen, en spaties, koppeltekens en apostrofs niet meetellen:
31 letters onmaatschappelijkheidsbestrijding
bejaardenziekenfondsverzekering
levensmiddelendistributiesector
electriciteitsproductiebedrijven
32 letters
gelegenheidskledingverhuurbedrijf
televisie-voorlichtingsprogramma's
33 letters
kleuterleidstersopleidingsscholen
commissie-studentenaangelegenheden
35 letters
arbeidsongeschiktheidsver zekeringen
TABEL 3 analyse van de koppelwoorden
type (kern is onderstreept) |
aantal |
voorbeeld |
kern voorop |
17 |
|
|
syntactisch goed |
|
17 |
|
|
N+PP |
|
14 |
Japanners-zonder-benen |
|
N+S |
|
9 |
mensen-die-er-nog-niet-aan-toe-zijn |
|
N+N |
|
1 |
staatsman-nummer-één |
kern achteraan |
22 |
|
|
syntactisch goed |
|
4 |
|
|
A+N |
|
2 |
bijna-eigenlijk-ook-meester |
|
det+A+V |
|
1 |
het-zonder-meer-neuken |
|
PP+V |
|
1 |
met-de-waarheid-liegen |
|
syntactisch niet goed |
|
18 |
|
|
nominalisatie met - ‘erij’ |
|
2 |
in-de-houding-springerij |
|
N+N (twee met ‘oud’) |
|
7 |
mooie-doortrapte-jongen-filmimage |
|
S+N |
|
4 |
doe-het-zelf-televisie |
|
PP+N |
|
1 |
in-het-wilde-weg-manier |
|
getal+N+N |
|
2 |
3-verdiepingen-gebouw |
|
nevenschikking+N |
|
2 |
Nimzowitsch-Aljechin-verdediging |
geen kern voor of achter |
11 |
|
|
syntactisch goed |
|
5 |
|
|
(det)+A+N+PP |
|
4 |
gescheiden-vrouwtje-met kind |
|
NK-N-PP |
|
1 |
vleugeltjes-fee-op-leeftijd |
|
syntactisch niet goed |
|
6 |
|
|
herhaling |
|
1 |
schaken-schaken-schaken |
|
S-er |
|
1 |
weg-met-deze-maatschappijers |
|
S |
|
1 |
kan-iemand-die-dood-is-een-moord-plegen |
|
‘oud’+N+frans adj. |
|
1 |
oud-thesaurier-generaal |
|
onbegrijpelijk |
|
2 |
Klik-klik-klik-Alles |
totaal syntactisch goed |
|
26 |
|
totaal syntactisch niet goed |
|
24 |
|
| |
| |
36 letters
sociologistisch-natuurwetenschappelijk
39 letters
Volksuniversiteit voor Sabotage-technieken
Als woord dat uitsluitend uit letters bestaat is dus dat van 35 letters kampioen. Het adjectief van 36 letters heeft een lelijk koppelteken. Het woord van 39 letters heeft weliswaar twee spaties, een koppelteken en twee hoofdletters, maar het wordt aanzienlijk meer acceptabel als men ziet dat de eigennaam Volksuniversiteit voor Sabotage, in een ánder subcorpus, voorkomt, waarmee het woord van 39 letters dus even goed wordt als Godfried Bomans-saus, dat in de lijst staat. Ik blijf zoeken naar woorden met uitsluitend letters boven de 35, en woorden in een vrijzinniger opvatting boven de 39 letters lang. Te verzinnen zijn ze, maar eis is dat ze - en niet alleen om het effect van hun lengte - gedrukt werden.
| |
7 Postscriptum
Op een voorpublicatie van dit artikel ontving ik van J. van Bakel, F. Balk-Smit Duyzentkunst, A. Voogt, C. Witteveen en A. van Wijngaarden de volgende woorden (met hun vindplaatsen):
‘ziektekostenverzekeringsmaatschappij’,
‘lichaamsactiviteitsbetrekkingsschema’,
‘sensitivitytrainingsbijeenkomsten’,
‘voorkandidaatsstatistiekverplichtingen’,
‘landbouwmechanisatietentoonstelling’
In een encyclopedie ontmoette ik ‘gemeentereinigingsroltrommelhuisvuilophaalauto's’ (47 letters).
| |
8 Bibliografie
[1] v. Berckel e.a. Formal Properties of Newspaper Dutch, Amsterdam 1965
[2] Uit den Bogaart (red.) Woordfrequenties in geschreven en gesproken Nederlands, Utrecht 1975
[3] Bombaugh, Oddities and Curiosities, New York 1965
[4] Borgmann, Language on Vacation, New York 1961
[5] Brandt Corstius (ed.) Grammars for Number Names, Dordrecht 1968
[6] Brandt Corstius, Algebraische taalkunde, Utrecht 1974
[7] Nieuwborg, Retrograde woordenboek van de Nederlandse taal, Antwerpen z.j.
[8] Verloren van Themaat, Automatic Analysis of Dutch Compound Words, Amsterdam 1972
[9] Ziff, The Number of English Sentences, FoL 11 (1974) 519-532. |
|