De Nieuwe Taalgids. Jaargang 87
(1994)– [tijdschrift] Nieuwe Taalgids, De– Auteursrechtelijk beschermd
[pagina 301]
| ||||||||||||||||||||||||||||
1 InleidingEen tekstcorpusGa naar voetnoot1 kan een belangrijke rol vervullen in linguïstisch onderzoek: het gebruik van een omvangrijk corpus is essentieel voor het testen en valideren van hypotheses. In aanleg zijn corpora echter niet meer dan een verzameling tokensGa naar voetnoot2 en de enige linguïstische informatie die met behulp van de computer aan deze teksten kan worden ontleend is de frequentie van woordtypen. Om een corpus bruikbaar te maken voor linguïstisch onderzoek is het noodzakelijk dat aan die tokens codes worden toegekend die linguïstische informatie bevatten. Omdat hedendaagse corpora zeer omvangrijk zijn - de Taalbank van het Instituut voor Nederlandse Lexicologie in Leiden telt bijvoorbeeld ongeveer 60 miljoen tokens - dient deze codering automatisch te geschieden. Er zijn veel voordelen verbonden aan automatisch coderen boven codering met de hand: niet alleen is automatische verrijking consistent en consequent, het is verder minder arbeidsintensief en bewerkelijk - ook omdat er minder correcties en aanpassingen nodig zijn. De vorm van taalkunde die gebruik maakt van corpora wordt over het algemeen omschreven met de term corpuslinguïstiek. Corpuslinguïstiek is een hulpdiscipline voor alle overige vormen van taalkunde. Na verrijking met taalspecifieke codes zijn corpora bruikbaar voor linguïstisch onderzoek met behulp van de computer. Het is dan mogelijk om bijvoorbeeld theorieën over grammatica's te testen door (delen van) teksten syntactisch te parseren. Verder kan onderzoek worden gedaan naar de semantische samenstelling van (delen van) teksten, of meer algemeen: het analyseren van structuren en betekenissen van die structuren. Voor lexicologen en lexicografen is het gebruik van corpora iets specifieker: zij willen bijvoorbeeld de fysieke representatie van een klankvorm analyseren in een bepaalde context, met zowel restricties op de vorm en de lexicale categorie - bijvoorbeeld: alleen zagen als verbum - als restricties op de context waarin een vorm voorkomt - bijvoorbeeld: alleen zagen met links en rechts een nominale groep (de goochelaars zagen het arme weesmeisje). Hier ligt de essentie meer in het analyseren van de betekenis van individuele representaties van klankvormenGa naar voetnoot3. | ||||||||||||||||||||||||||||
[pagina 302]
| ||||||||||||||||||||||||||||
In het coderen van digitale teksten moet een onderscheid worden gemaakt tussen typografische en linguïstische codes. Typografische codes hebben betrekking op de uiterlijke vorm van het materiaal, bijvoorbeeld tekst-, pagina-, alineaen regelnummers, en linguïstische codes hebben betrekking op de inhoudelijke aspecten van een tekst, bijvoorbeeld morfologische, semantische, fonologische en prosodische codes. Een initiële stap in het verrijken van corpora met linguïstische codes is lemmatiseren. Lemmatiseren beoogt om op automatische wijze aan iedere lexicale eenheid uit een tekst een woordsoort en een lemma- of woordenboekvorm toe te kennen. Wanneer aan de lexicale eenheid meer dan één lexicale categorie wordt toegekend, worden disambigueringsregels toegepast om op grond van de context uit de alternatieven de meest aannemelijke interpretatie te kiezen. Bijvoorbeeld: in de verbinding de schone letteren is op grond van de context de meest aannemelijke interpretatie dat de adjectief/nomen-ambiguïteit schone een adjectief is: telkens wanneer een dergelijke ambiguïteit wordt voorafgegaan door een artikel en wordt gevolgd door een nomen wordt het adjectivisch gebruikt. Dergelijke disambigueringsregels kunnen op empirische gronden worden geformuleerd, maar het is ook mogelijk om ze met behulp van statistische methodes te verkrijgen. In het laatste geval is echter een gelemmatiseerd corpus nodig. In de huidige lemmatiseerders voor het Nederlands worden alleen lexicale eenheden behandeld die slechts uit één element bestaan en worden vaste verbindingen (VV's), dat wil zeggen: lexicale eenheden die uit twee of meer componenten bestaan, niet behandeld (zie Wagenaar (1993))Ga naar voetnoot4. De laatste jaren is er betrekkelijk veel onderzoek gedaan naar VV's (zie onder meer Everaert (1993), Van der Linden (1993) en Verstraten (1992)), maar dit heeft nog niet geleid tot een formele beschrijving van collocaties. Om tot een formele beschrijving te komen is het nodig om niet alleen naar de VV's zelf te kijken, zoals tot nog toe gebruikelijk was, maar dient ook de natuurlijke context bestudeerd te worden. Dit maakt het gebruik van een corpus onontbeerlijk. Zonder een computerapplicatie die specifiek is toegerust voor het uitputtend zoeken naar VV's in lopende tekst is corpusonderzoek echter praktisch onhaalbaar met de huidige omvangrijke corpora. In dit artikel introduceren wij daarom een systeem waarmee VV's automatisch getraceerd en gemarkeerd kunnen worden: The Collocating Machine (TCM), en laten we zien welk enorm potentieel aan linguïstisch onderzoek naar de syntactische en semantische kenmerken van VV's daardoor ontstaat. In paragraaf 2 gaan we kort in op het proces van het lemmatiseren van collocaties, door ons collocationeren genoemd, en op de werking van TCM. Wij gebruiken de term collocationeren om een onderscheid aan te brengen tussen lemmatiseren zonder, en lemmatiseren met behandeling van collocaties - in strikte zin is dit onderscheid niet nodig omdat beide termen het proces van het coderen van lexicale eenheden omschrijven. Vervolgens worden in paragraaf 3 door middel | ||||||||||||||||||||||||||||
[pagina 303]
| ||||||||||||||||||||||||||||
van een beschrijving van een aantal algemene eigenschappen van VV's de problemen geschetst die VV's opleveren voor het automatisch zoeken en markeren. Daarna wordt in paragraaf 4 een overzicht gegeven van de vele mogelijkheden die TCM biedt voor het onderzoek naar VV's. Tot slot volgen in paragraaf 5 enige conclusieve opmerkingen. | ||||||||||||||||||||||||||||
2 The Collocating MachineIn deze paragraaf wordt de werking van TCM toegelicht. TCM zoekt in digitaal opgeslagen tekst naar vaste verbindingen en markeert deze expressies vervolgens. Tijdens dit zoekproces wordt de tekst woord voor woord ingelezen en gelemmatiseerd.
Datastructuur van TCM
Het herkennen van vaste verbindingen vindt plaats aan de hand van een geïndexeerde lijst van uitdrukkingen. Deze lijst bevat behalve de verbindingen zelf, ook informatie over de syntactische structuur (NP, PP, AP, VP of S) en over de | ||||||||||||||||||||||||||||
[pagina 304]
| ||||||||||||||||||||||||||||
mate van compositionaliteit van iedere verbindingGa naar voetnoot5. Aan de lijst van VV's is een lijst met parafrases gekoppeld. Hierdoor is iedere VV relationeel verbonden met zijn betekenis, bijvoorbeeld: een storm in een glas water is gekoppeld aan de betekenis ‘grote ophef of onenigheid over iets onbelangrijks’. Ieder woord dat het programma leest wordt opgezocht in het Lexicon. Wanneer het daarin wordt gevonden en wanneer blijkt dat het woord voorkomt als component van de kern van een vaste verbinding, dat wil zeggen: als het behoort tot een van de openklassewoorden van een VV, dan worden de referenties van dat token uit de Index gelezen. De referenties verwijzen ieder naar een frase en een parafrase in het VV-Lexicon. Wanneer een volgend token in de tekst ook een element van een expressie is, dan vindt combinatie plaats van de referenties. Deze stappen worden herhaald tot het duidelijk is, dat er al dan niet sprake is van een vaste verbinding of tot het einde van de zin, of een zinsdeel, is bereikt.
Met het resultaat van het combineren (in het voorbeeld: 40) kan de frase uit het VV-Lexicon worden geselecteerd. De referentie wordt tevens gekoppeld aan ieder element uit de kern van de VVGa naar voetnoot6. Parallel aan dit proces vindt disambiguering plaats en worden de tokens die niet in het lexicon zijn gevonden morfologisch geanalyseerd (zie Wagenaar (1993)). | ||||||||||||||||||||||||||||
[pagina 305]
| ||||||||||||||||||||||||||||
Tekst De jongen zei: ‘de kat uit de boom kijken is een uitdrukking’.
Na Lexicon retrieval De_a <de> jongen_nv <jongen | i1> zei_v<zeggen|t1>: ‘de_a<de> kat_nv<1kat2katten|i1> uit_pv<1uit2uiten|tr1> de_a<de> boom_nv<1boom2bomen|it1> kijken_v<kijken|it1> is_v<zijn|i2hk> een_a<een> uitdrukking_n<uitdrukking>’.
Na Disambiguering De_a<de> jongen_n<jongen> zei_v<zeggen|t1>: ‘de_a<de> kat_n<kat> uit_p<uit> de_a<de> boom_n<boom> kijken_v<kijken|it1> is_v-<zijn|i2hk> een_a<een> uitdrukking_n<uitdrukking>’.
Na Collocationering De_a<de> jongen_n<jongen> zei_v<zeggen|t1>: ‘de_a<de> kat_n-<kat|40v2> uit_p<uit> de_a<de> boom_n<boom|40v2> kijken_v<kijken|it1|40v2> is_v<zijn|i2hk> een_a<een> uitdrukking_n<uitdrukking>’. Voorbeeld van een collocationeringGa naar voetnoot7
Hoewel een principiëlere aanpak zou zijn te prefereren is het (vooralsnog) noodzakelijk om uit te gaan van een onderliggende lijst VV's: het is voor een computer onmogelijk VV's te herkennen als ze niet in het geheugen zijn opgeslagen. Het zou pas mogelijk zijn VV's volautomatisch te herkennen als er een volledige formele beschrijving van zou bestaan die geïmplementeerd zou kunnen worden. Het gebruik van een lijst heeft namelijk enkele nadelen. In de eerste plaats is er sprake van een zekere redundantie: de woorden die in de VV's voorkomen staan op enkele uitzonderingen na ook allemaal in het lexicon dat gebruikt wordt om te lemmatiseren. In de tweede plaats is een dergelijke lijst per definitie incompleet: staat een VV niet in de lijst dan wordt deze ook niet in een tekst gevonden. Of een complete formele beschrijving van VV's ooit gemaakt zal worden is onzeker en bovendien blijft het dan de vraag of een implementatie ook praktisch haalbaar zal zijn. Het is bijvoorbeeld vooralsnog niet bekend op welke | ||||||||||||||||||||||||||||
[pagina 306]
| ||||||||||||||||||||||||||||
wijze de taalgebruiker herkent dat er sprake is van een VV. Om enig inzicht in dit proces te verkrijgen zou het noodzakelijk zijn een volledige formele beschrijving van met name de werkwoorden te verkrijgen. Hierbij moet niet alleen aan syntactische valentie worden gedacht maar ook aan een systeem om de semantiek van de werkwoorden zo gedetailleerd te beschrijven, dat een computerprogramma in staat is na te gaan of de lexicale elementen uit de context van het desbetreffende werkwoord ook in semantisch opzicht binnen het patroon van het werkwoord passen. Het is voorstelbaar dat hetzelfde werkwoord zich binnen een VV anders gedraagt, hetzij wat betreft zijn syntactische valentie, hetzij wat betreft semantische markering ten aanzien van de context. Om te kunnen onderzoeken of er in syntactisch of semantisch opzicht enig verschil is waar te nemen in het gedrag van met name werkwoorden binnen en buiten VV's heeft men echter een programma als TCM nodig. Wat semantische aspecten betreft zijn er aanknopingspunten bij een semantiek waarin geen onderscheid wordt gemaakt tussen talige kennis en encyclopedische kennis. Een dergelijke benaderingGa naar voetnoot8 is in staat te verklaren op welke wijze de taalgebruiker een onbekende VV toch kan begrijpen en daarmee ook kan herkennen als VV. Kent men bijvoorbeeld de uitdrukking tussen vier plankjes liggen niet, dan is men op grond van de context en de kennis van de wereld die men heeft, toch in staat de betekenis van de VV te doorzien (zie ook Verstraten (1992)Ga naar voetnoot9). Het vermogen onbekende VV's te interpreteren zal echter van persoon tot persoon verschillen afhankelijk van taalgevoel, kennis van de wereld etc. Dat VV's niet aan één bepaald kenmerk te herkennen zijn impliceert dat een implementatie die niet uitgaat van een onderliggende lijst mogelijk zeer complex zou kunnen zijn. | ||||||||||||||||||||||||||||
3 Vaste verbindingenIn deze paragraaf gaan we nader in op eigenschappen van VV's en dan met name voor zover die van belang zijn voor (problemen bij) het automatisch traceren ervan. Een belangrijk kenmerk van VV's is, dat zij binnen een zin de functie van een zinsdeel vervullen. Dit betekent dat veel VV's in uiterlijke verschijningsvorm aan de context worden aangepast. Afhankelijk van de mate waarin deze vormelijke aanpassing mogelijk is, kan een onderscheid worden gemaakt tussen harde en zachte VV's: een harde VV is invariabel, dat wil zeggen: de volgorde en de fysieke verschijningsvorm van de lexicale elementen waaruit de VV is opgebouwd is altijd vast. Hieronder vallen vooral nominale verbindingen (het kind van de rekening, een blauwe maandag), prepositionele verbindingen (naar hartelust, naar zijn mallemoer) en adverbiale en adjectivische verbindingen (fris als een hoentje, frank en vrij). Een zachte VV is variabel: de volgorde en de fysieke verschijningsvorm van de lexicale elementen waaruit de VV is opgebouwd is niet vast: niet alleen zijn de elementen onderling beperkt verwisselbaar, ook is het mogelijk lexicale elementen | ||||||||||||||||||||||||||||
[pagina 307]
| ||||||||||||||||||||||||||||
toe te voegen die geen deel uitmaken van de verbinding, of kunnen paradigmatische varianten van verba worden gebruikt. Daarnaast kunnen pronomina worden aangepast aan specifieke contexten. In deze groep vallen met name de verbale verbindingen maar ook verbindingen die uit een volledige zin bestaan (de aap komt uit de mouw, maar ook: kwam de aap toen uit de mouw? en zij bekijken hem van top tot teen naast hij bekeek haar van top tot teen). Gerelateerd aan de begrippen harde en zachte VV is de term kern van de VV. Bij een harde VV bestaat de kern uit de hele VV en bij zachte VV's uit de verba en nomina uit de VV. Door TCM wordt gebruikt gemaakt van de kern omdat het praktisch ondoenlijk is rekening te houden met lidwoorden, voorzetsels en andere functiewoorden die frequent worden gebruikt. Door uit te gaan van een kern van een VV kan sneller worden gezocht doordat niet bij ieder lidwoord of voorzetsel bekeken hoeft te worden in welke VV's het voorkomt. Ook in VV's komen lidwoorden, voorzetsels en andere functiewoorden namelijk zeer frequent voor. Andere functies van de kern komen hieronder naar voren. In het vervolg van deze paragraaf zullen we nader ingaan op de hier genoemde en andere eigenschappen van VV's. In semantisch opzicht zijn VV's - evenals woorden - te beschouwen als lexicale eenheden omdat ze als geheel betekenis dragen, en vanuit syntactisch oogpunt zijn het eenheden die zelfstandig zinsdelen of complete zinnen vormen die niet in alle gevallen nog verder ontleed hoeven te worden. Dat er nog wel sprake is van een syntactische geleedheid binnen een VV blijkt daar uit, dat wanneer VV's in een zinsconstructie worden ingebed, elementen die niet tot de VV behoren tussen de componenten van de VV terecht kunnen komen. Vergelijk de a- en b-zinnen:
De a-zinnen geven de vorm waarmee de VV in het lexicon is opgenomen, de b-zinnen een mogelijk gebruik van die VV's. Uit deze voorbeelden blijkt dat de delen van een VV niet aaneengesloten hoeven voor te komen en dat bepaalde delen van een VV gemodificeerd kunnen worden door bijvoorbeeld een adjectief of adverbium. Bij het collocationeren is het dus relevant om te herkennen welke woorden wel en welke niet tot de VV behoren. Een ander probleem voor het collocationeren is dat van de pronomina. De VV iemand van top tot teen bekijken kan voorkomen als hij bekeek haar van top tot teen maar ook als zij bekeken jullie van top tot teen. Het zou in deze gevallen correct zijn het pronomen haar respectievelijk jullie te markeren als element van de VV iemand van top tot teen bekijken. Weliswaar maakt dat specifieke pronomen geen deel uit van de VV, de syntactische plaats zelf is wel degelijk een invariabel deel van de VV die niet oningevuld mag blijven. Voor behandeling van deze systematische variatie wordt iemand daarom als een existentiële variabele beschouwd die gebonden kan worden aan pronomina personalia of eigennamen (Renée bekeek Dirk van top tot teen). Hetzelfde geldt voor iets en andere variabele pronomina (op iets geld moeten toeleggen, zijn gezicht staat op slecht weer), zij het dat voor iets niet de beperking geldt dat de constituent die de positie van iets kan innemen een pronomen of een eigennaam moet zijn (op de verkoop van dit boek moet ik geld toeleggen). In eerste instantie lijkt het niet strikt nodig dergelijke pronomina of eigennamen | ||||||||||||||||||||||||||||
[pagina 308]
| ||||||||||||||||||||||||||||
te herkennen als onderdeel van de VV. Ze maken immers nooit deel uit van de kern van de VV. Het kan echter voor bepaalde (onderzoeks)doeleinden interessant zijn inzicht te krijgen in het type element dat een dergelijke plaats binnen de VV kan innemen. Het wordt dan bijvoorbeeld mogelijk in woordenboeken duidelijk aan te geven met welk type elementen een bepaalde VV bij voorkeur gecombineerd moet worden. Vooral in woordenboeken die bedoeld zijn voor taalproduktie, zoals tweetalige woordenboeken en leerwoordenboeken, is dit soort informatie van belang. Een derde probleem dat door TCM moet worden opgelost is het voorkomen van meerdere elementen uit de kern binnen een zin. In de zin hij keek mij aan en zag dat ik de kat uit de boom keek is de computer niet zo maar in staat uit te maken welk voorkomen van keek tot de VV de kat uit de boom kijken behoort. Onderzocht moet worden of de afstand tot de kern uitsluitsel kan geven; in het voorbeeld staat het tweede voorkomen van keek het dichtst bij een element uit de kern, namelijk boom. Hier vormt de verbinding bovendien de objectzin, wat op zich ook een aanwijzing is. In Verstraten (1992a:45 e.v.) wordt de vastheid van VV's gedemonstreerd aan het feit dat elementen van een VV niet zomaar kunnen worden weggelaten of kunnen worden vervangen. De VV en zijn speciale betekenis gaan dan verloren. In het taalgebruik worden VV's echter vaak gecontamineerd of onvolledig gebruikt. Woorden uit de VV worden weggelaten, vervangen door andere of veranderen als gevolg van hypercorrectie. Vergelijk de a- en b-zinnen:
De taalgebruiker is nog wel in staat in te zien dat met éen hond in de zak kopen eigenlijk een kat in de zak kopen wordt bedoeld, maar de computer is dat niet. De vraag is of dergelijke onsystematische (individuele) aanpassingen nog wel tot de VV's gerekend moeten worden. Strikt genomen is een hond in de zak kopen geen VV, maar voor onderzoek naar het gebruik van VV's in teksten is het interessant ook deze gevallen op het spoor te komen. Het collocationeerprogramma moet dus dergelijke gevallen kunnen signaleren. Onderzocht moet worden hoe ook deze incomplete VV's langs automatische weg gevonden kunnen worden. Een verwant probleem is dat van de ambiguïteit: een VV kan in een bepaalde context in zijn letterlijke betekenis worden gebruikt. Dagobert Duck zwemt bijvoorbeeld letterlijk in zijn geld. In dit soort gevallen zal het collocationeerprogramma ten onrechte besluiten dat er van een VV sprake is, maar misschien niet helemaal ten onrechte omdat meestal wel wordt gezinspeeld op de VV, bijvoorbeeld voor een komisch effect. In het huidige prototypische stadium van implementatie is TCM in staat om in elk geval de harde, en een groot deel van de zachte VV's te traceren. Het ligt in de lijn der verwachting dat de minder systematische contextuele en/of individuele | ||||||||||||||||||||||||||||
[pagina 309]
| ||||||||||||||||||||||||||||
variatie, waarvan we in deze paragraaf voorbeelden hebben gegeven, binnen afzienbare tijd kunnen worden opgelost. | ||||||||||||||||||||||||||||
4 OnderzoeksmogelijkhedenDoordat TCM in staat is om grote hoeveelheden tekst te collocationeren krijgt het onderzoek naar VV's nieuwe impulsen - tot nog toe was de onderzoeker aangewezen op zijn eigen intuïtie en in het gunstigste geval een beperkt corpus. De specifieke informatie die TCM bevat over de syntactische verschijningsvorm en de semantiek van VV's in combinatie met de gebruiksmogelijkheden van VV's in teksten biedt echter veel perspectieven. Omdat wordt uitgegaan van een lijst van VV's is het niet alleen mogelijk om met behulp van TCM informatie over VV's aan teksten te ontlenen, de vragen kunnen ook uitsluitend aan deze database worden voorgelegd. De kracht van TCM ligt uiteraard in de combinatie van database met tekst, omdat de oplossingen in dat geval met context kunnen worden aangeboden. Hieronder geven we een overzicht van enkele toepassingen van TCM. In de eerste plaats biedt TCM de mogelijkheid om op tekstueel niveau onderzoek te doen. Door alle VV's uit een willekeurige tekst te halen kan bijvoorbeeld worden nagegaan of het waar is, zoals vaak wordt aangenomen, dat VV's voornamelijk in fictie worden gebruikt en dat bijvoorbeeld ambtelijke of wetenschappelijke teksten veel minder, of in elk geval andere, VV's bevatten. Per type tekst zou bijvoorbeeld kunnen worden onderzocht of bepaalde tekstgenres meer compositionele VV's bevatten dan andere - zo is het denkbaar dat fictie meer niet-compositionele verbindingen bevat. De compositionaliteit van VV's zou dan een hulpmiddel kunnen zijn bij het automatisch vaststellen van het tekstgenre. Meer algemeen kan op fysiek tekstueel niveau frequentie-onderzoek worden gedaan. Hoewel op empirische gronden is vastgesteld dat VV's tamelijk frequent voorkomen, is dit nooit statistisch onderbouwd. Op contextueel niveau kan onderzoek worden gedaan naar specifieke eigenschappen van expressies, al dan niet in samenhang met de omgeving waarin zij optreden, of kunnen hypotheses over eigenschappen van VV's worden getest. Doordat ieder lexicaal element van de VV is gelemmatiseerd, kan er worden gezocht naar VV's die een bepaald lemma bevatten of die een bepaalde syntactische structuur hebben. Dit houdt in, dat men bijvoorbeeld slechts de infinitief of een paradigmatische variant van een verbum hoeft in te geven om alle VV's te vinden die een (andere) vervoeging van dit werkwoord bevatten. Bijvoorbeeld: het intoetsen van maken zou kunnen resulteren in: hij wil het nooit eens iemand naar de zin maken, jij maakt er een potje van zeg!, wat maak je me nou?. Voor diverse onderzoeksdoeleinden, zoals onderzoek naar werkwoordelijke VV's, maar ook voor lexicografische toepassingen, kan deze vraag interessante gegevens opleveren. In lexica worden VV's namelijk alleen in bepaalde vervoegingen opgenomen en er wordt onvermijdelijk een beslissing genomen over wat de fysieke vorm van de expressie moet zijn. De uitdrukking wat maak je me nou kan niet op een andere wijze worden gebruikt - niet in een andere tijd, persoon of getal en niet passief - dus kan worden besloten dat dit de woordenboekvorm is. In andere gevallen, bijvoorbeeld: jij maakt er een potje van, kan wel worden gevarieerd; voor deze uitdrukking zal derhalve een algemene vorm moeten worden gekozen. Dit maakt het relevant om te weten welke verbindingen wel, en welke niet variabel kunnen worden gebruikt omdat dit consequenties heeft voor de macro-structurele selectie. Het | ||||||||||||||||||||||||||||
[pagina 310]
| ||||||||||||||||||||||||||||
onderscheid komt overeen met onze indeling in harde en zachte VV's: een harde VV moet in zijn finiete vorm worden geselecteerd (wat maak je me nou) en voor een zachte VV moet de meest algemene vorm voor opname worden gezocht (ergens een potje van maken). Omdat de elementen van een VV zijn voorzien van een woordsoort kan ook worden gezocht naar VV's met een bepaalde syntactische constructie, bijvoorbeeld: de vraag ‘zoek naar VV's met de structuur prepositie + verbum’ kan resulteren in de oplossingen in de knoei zitten, tot stand brengen, op stelten zetten, op zijn pootjes terecht komen. De woordvormen met hun woordsoortcodes hoeven dus niet aaneengesloten voor te komen binnen de VV, maar ze moeten wel in de aangegeven volgorde staan. In combinatie met context kan hiermee onderzoek worden gedaan naar het gedrag van bepaalde syntactische constructies binnen en buiten VV's. Een bijzonder functionele optie is dat met TCM binnen teksten gezocht kan worden naar VV's met restricties op de context. Hierbij kan worden gedacht aan VV's die speciaal in de buurt van een bepaald type woord of woordsoort gebruikt worden, bijvoorbeeld VV's die een specifiek negatieve omgeving prefereren: niet op zijn mondje gevallen zijn, iets interesseert iemand geen reet/moer/etc., geen knip voor de neus waard zijn (zie Van der Wouden (1994)). Een ander interessant onderzoeksobject wordt mogelijk gemaakt door de koppeling van de parafrases aan de VV's. Hierdoor kan men via de database VV's benaderen rond een bepaald thema of een bepaald onderwerp. Bekend is dat er tamelijk veel verbindingen bestaan rond thema's als angst, kwaadheid, de dood, dronkenschap en eten, maar mogelijk zijn er veel meer. Omdat de VV in de meeste gevallen zelf geen woorden bevat die expliciet naar het onderwerp verwijzen - een VV is immers in veel gevallen idiomatisch - is het nodig de parafrase te bekijken. Rond het thema ‘bang zijn’ geeft de database onder andere: 'm knijpen, als de dood van iets zijn, het zweet in de handen hebben staan, in zijn rikketik zitten. Hiermee verwant is de mogelijkheid om VV's rond een bepaald onderwerp te combineren met een bepaald woord dat in de VV moet voorkomen. Dit kan interessant zijn voor onderzoek naar de semantiek van VV's en naar metaforisch taalgebruik in het algemeen. Zo blijken termen die duiden op warmte of koude vaak op metaforische wijze gebruikt te worden in VV's die te maken hebben met het wel of juist niet aanwezig zijn van emoties (Verstraten (1992a: 140-149)). Voorbeelden van dergelijke verbindingen zijn: warm lopen voor iets, ergens niet heet of koud van worden, in vuur en vlam staan, een koude kikker. Ook buiten VV's komt men dit type metaforen tegen: iemand kan ergens laaiend (enthousiast) van zijn, personen die weinig emotie tonen worden (ijs) koud, koel of kil genoemd, de atmosfeer kan verkillen enzovoort. De lemmata in de database zijn ook voorzien van informatie over (in)transitiviteit en reflexiviteit van werkwoorden, over hun status: zijn het hulpwerkwoorden, koppelwerkwoorden of onpersoonlijke werkwoorden (regenen, tochten), en worden ze vervoegd met hebben of met zijn. Ook deze informatie biedt al dan niet in combinatie met andere opgeslagen gegevens diverse invalshoeken, bijvoorbeeld: hebben werkwoorden binnen VV's dezelfde eigenschappen als in isolatie. In combinatie met de parafrases van VV's kan worden onderzocht of VV's met een min of meer intransitieve betekenis of semantische karakteristiek (bijvoorbeeld sterven of doodgaan; e.g. ergens de dood vinden, de pijp aan Maarten geven, zijn einde | ||||||||||||||||||||||||||||
[pagina 311]
| ||||||||||||||||||||||||||||
vinden, het moede hoofd neerleggen) ook gevormd zijn op basis van intransitieve werkwoorden of dat hierbij ook transitieve werkwoorden voorkomen. In dat laatste geval kan het interessant zijn na te gaan of de mate van compositionaliteit hierbij een rol speelt. Dit type vraagstelling is geheel gericht op onderzoek naar de eigenschappen van VV's. Naast bovengenoemde opties, kan ook worden gezocht op alle mogelijke combinaties van de verschillende zoekelementen. Bijvoorbeeld: zoek naar een niet-compositionele nominale verbinding met als onderwerp onenigheid, waarbij de VV het woord storm bevat (e.g. een storm in een glas water). | ||||||||||||||||||||||||||||
5 Tot besluitIn deze laatste paragraaf zullen we in het kort ingaan op twee punten, die in het voorafgaande niet (voldoende) aan de orde zijn geweest. Daarna besluiten we met een paar algemene aantekeningen. In dit artikel wordt uitgegaan van een lijst of lexicon van VV's. Met deze lijst als basis kunnen VV's in teksten worden opgespoord en gemarkeerd. Deze lijst is echter nooit geheel compleet en bovendien ontbreken nieuwe VV's. Er bestaan voorstellen om met behulp van statistiek VV's op het spoor te komenGa naar voetnoot10. Aan een statistische methode zijn diverse nadelen verbonden. In de eerste plaats worden veel verbindingen gedetecteerd die niet interessant zijn. Bijvoorbeeld lidwoordzelfstandig naamwoord opeenvolgingen en paradigmatische constructies als ik ben. Verder kunnen met deze methode VV's die slechts eenmaal voorkomen niet worden gevonden. Een derde bezwaar is dat deze methode gericht is op interactie met de gebruiker: deze dient van te voren op te geven van welk woord hij de collocaties wil weten. Wij willen echter onbekende VV's op het spoor komen zonder bij voorbaat al van woordvormen uit te moeten gaan. Toch kunnen probabilistische methoden wel van dienst zijn. Mogelijke VV's kunnen uit een te collocationeren tekst worden gehaald door tijdens het proces woord(soort) opeenvolgingen op te slaan. Blijken sommige opeenvolgingen frequenter voor te komen dan anderen (zowel met lemma als lexicale categorie) dan kan interactief worden bekeken of het een (onderdeel van een) VV betreft en wanneer dit het geval is, dan kan de VV in de lijst worden opgenomen. Ook met deze methode worden dus geen VV's gevonden die slechts eenmaal voorkomen. Een bijkomend nadeel is dat het gebruik van VV's zo specifiek is, dat men een bepaalde VV niet snel meerdere malen binnen dezelfde tekst zal gebruiken. Verwant aan de discontinuïteit van VV's is de uiteenplaatsing van scheidbaar samengestelde werkwoorden: het verbum en bijbehorend partikel kunnen niet alleen ver uit elkaar staan, maar tussen de samenstellende delen kunnen woorden voorkomen die de plaats van het partikel kunnen innemen. Bijvoorbeeld: | ||||||||||||||||||||||||||||
[pagina 312]
| ||||||||||||||||||||||||||||
In (7) wordt het verbum aansteken onderbroken door de NP het huisje. Problematischer is het gebruik van aansteken in (8): hierin staan tussen de beide delen van het samengestelde werkwoord twee preposities (in en aan) die in aanmerking komen om samen met steken een scheidbaar samengesteld werkwoord te vormen. Hierdoor wordt het moeilijk om automatisch vast te stellen of een zin een scheidbaar samengesteld werkwoord bevat en welke woorden tot dat werkwoord gerekend moeten worden. Het is zinvol om te bekijken of het probleem van het herkennen van scheidbaar samengestelde werkwoorden ook met TCM kan worden opgelost. Het onderzoek naar VV's is relevant omdat collocaties in de meeste van de ons bekende talen frequent voorkomen. In dit artikel hebben wij een aantal onderzoeksmogelijkheden geschetst waarmee het inzicht in de syntactische en semantische eigenschappen van VV's aanzienlijk vergroot zou kunnen worden. Die kennis is relevant voor lexicografische en/of lexicologische toepassingen, met name voor een adequatere en systematischer behandeling van VV's in lexica, of voor de samenstelling van een woordenboek van fraseologismen. De kennis van VV's kan ook als onderdeel van taalkundig onderzoek op grotere schaal bijdragen aan syntactisch en semantisch onderzoek. In (automatisch) syntactisch onderzoek is het uitgangspunt dat VV's uitzonderingen zijn, of erger: ‘vreemde gevallen’, en dit is een van de redenen dat de huidige parsers VV's niet kunnen verwerken. Een VV is echter een syntactische eenheid die niet verder ontleed hoeft te worden, dus wanneer een VV is herkend is een deel van de zin correct geparseerd. Verder kan een VV inzicht geven in de syntactische structuur van een te parseren zin. Wanneer pronomina als iets of iemand, of adverbia als ergens deel uitmaken van een VV, dan is bekend dat de zin een (herhaald) subject of object bevat, of een bijwoordelijke bepaling van plaats. In (automatisch) semantisch onderzoek wordt gebruik gemaakt van het compositionaliteitsprincipe: de betekenis van een samenstelling is opgebouwd uit de betekenissen van de samenstellende delen. Dit impliceert dat de delen (door syntactische analyse) bekend zijn en ook dat de betekenissen van die delen bekend zijn. Wanneer een VV deel uitmaakt van de samenstelling die wordt geanalyseerd is niet alleen een deel correct syntactisch geparseerd, maar is ook een deel van de betekenis van het geheel opgebouwd. Een groot voordeel van onze methode is dat deze in principe taalonafhankelijk is. Door de lijst VV's en een verrijkt lexicon voor een willekeurige taal te formuleren kan TCM worden toegepast op teksten in die taal. | ||||||||||||||||||||||||||||
Bibliografie
| ||||||||||||||||||||||||||||
[pagina 313]
| ||||||||||||||||||||||||||||
|
|