Bespreking en aankondiging
Lili. Zeitschrift für Literaturwissenschaft und Linguistik. Jahrg. 2 1972. Heft 8: Mathematisch orientierte Textwissenschaft. DM 9,80.
Met een lichte zucht neem ik op me de aflevering van het ‘Zeitschrift für Literaturwissenschaft und Linguistik’ over ‘Mathematisch orientierte Textwissenschaft’ (2e jaargang, 8e aflevering) te bespreken. Niet vanwege het ‘tekstwetenschap’ dat zovele ladingen moet dekken, maar vanwege het ‘mathematisch’. Als de wiskunde van nut kan zijn voor de taalkunde, dan moeten alle taalkundigen daarvan weten, en artikelen met wiskunde moeten gewoon tussen de andere in taalkundige tijdschriften staan. Het is dan ook een slecht idee zulke artikelen in speciale afleveringen te bundelen, en door een wiskundige te laten recenseren. De verdediging luidt natuurlijk dat zulke speciale nummers aan de onwillige taalkundige het grote nut van de wiskunde moeten duidelijk maken. Ik twijfel aan het effect. Er was een tijd dat vrouwen net op de universiteit waren toegelaten. Ze gaven toen vast geen speciaal nummer ‘Feministisch orientierte Textwissenschaft’ uit. Ik voel me als een vrouw die zo'n bundel te bespreken krijgt. Maar terzake.
Twee onderdelen van de wiskunde zijn door taalkundigen ontdekt: de statistiek en de algebra. De laatste toepassing is door Noam Chomsky c.s. het bekendst geworden. In Duitsland benutte Wilhelm Fucks al in de vijftiger jaren de statistiek. Hij blijkt daar nu een school gesticht te hebben: alle bijdragen uit dit Lili-nummer zijn te rekenen tot de statistische taalkunde, en drie van de vijf auteurs komen uit Fucks' Aken. Dannhauer en Wickmann bespreken in twee artikelen de mogelijkheid om semantische affiniteit tussen woorden door statistiek vast te leggen. In de twee zinnen Der Ober trug die Suppe schnell/heisz herein hoort schnell bij trug maar heisz bij Suppe. De auteurs hopen nu door in een groot aantal (korte) teksten te kijken hoe vaak deze woorden bij elkaar in dezelfde tekst staan een methode te vinden om formeel de twee zinnen juist te analyseren. Dat is geen nieuw idee. En de feiten hebben het idee nog nooit bevestigd. Op hun wiskundig voorstel ga ik niet in: de enige rechtvaardiging ervan kan zijn dat hun voorstel het probleem oplost. Maar aan de praktijk komen we niet toe. De slotalinea luidt:
‘Ergebnisse und ein Vergleich der verschiedenen Verfahren sollen in einem praktischen Teil veröffentlicht werden. Voruntersuchungen haben gezeigt, dasz derartige mathematisch-statistische Verfahren Umfelder erscheiden lassen, die in hohem Masze der Erwartung des Sprachteilhabers entsprechen.’
Hoe arrogant het ook klinkt: ik voorspel dat integendeel er niets interessants uit zal komen. En wel om twee redenen: een praktische reden: de information-retrieval is met zulke technieken al jaren geleden tegen de muur gelopen; en een theoretische reden: zinsparen als John is eager/easy to please geven geen aanleiding tot hoop.
In hun tweede artikel pakken de twee auteurs hetzelfde probleem aan, maar nu voor één (lange) tekst: de semantische affiniteit van twee woorden wordt dan gerelateerd aan hun fysieke afstand in de tekst. Op deze benadering is dezelfde kritiek mogelijk. Dannhauer beschrijft een programmering van tekstverwerking. Zulke artikelen horen niet afgedrukt. Elk rekencentrum heeft zijn gewoontes, talen en codes en die zijn voor buitenstaanders niet interessant. Het particularisme schrikt de lezer af.
Een klassiek probleem wordt door Maas behandeld: Hoe is de samenhang tussen het aantal verschillende woorden van een tekst en de lengte van die tekst? Van een groot aantal talen en teksten zijn die twee getallen bekend, en men kan zich afvragen of er een eenvoudig wiskundig verband tussen bestaat. Praktisch nut heeft het niet. Het nut dat Maas aangeeft berust op een misverstand. Hij meent dat het kan voorspellen hoeveel een bestaand lexicon moet worden uitgebreid om de woorden van een tekst te bevatten. Maar welke woorden voorkomen wordt door geen formule gegeven! Alle nut van een eventuele formule zit ook in de tabel waarop zo'n formule is gebaseerd.