Spektator. Jaargang 18
(1988-1989)– [tijdschrift] Spektator. Tijdschrift voor Neerlandistiek– Auteursrechtelijk beschermd
[pagina 24]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Categoriale Ontleding: Theorie en Praktijk
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 25]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
zinsontleding. Voor wie zich verder in deze stof wil verdiepen is er een ruime keuze aan meer gespecialiseerde literatuur.Ga naar eind3 Vanwege het inleidend karakter van deze bijdrage zullen we bovendien de semantiek buiten beschouwing laten, en onze aandacht toespitsen op syntactische en computationele aangelegenheden.Ga naar eind4 Om misverstanden te vermijden willen we de lezer hier geruststellen met de verzekering dat de verschillende alternatieve afleidingen voor een gegeven (niet-ambigue) zin wel degelijk gekoppeld worden aan gelijkwaardige semantische representaties, voor zover het de regeerverhoudingen tussen predicaten en hun argumenten betreft (de zogenaamde thematische structuur). Beschouw de uitdrukking Pavarotti verafschuwt Madonna (met het gewone intonatiepatroon). Deze ondubbelzinnige bewering kan binnen de flexibele categoriale grammatica twee afleidingen krijgen, hieronder schematisch weergegeven. In de linker structuur zijn allereerst het onderwerp en het werkwoord samengenomen tot de woordgroep Pavarotti verafschuwt, die vervolgens met het lijdend voorwerp verbonden wordt tot een zin. In de rechter afleiding daarentegen wordt eerst een woordgroep opgebouwd uit werkwoord en lijdend voorwerp. Deze woordgroep wordt vervolgens gecombineerd met het onderwerp tot een volledige zin. Het zal duidelijk zijn dat een onderwerp niet op de zelfde manier verbonden wordt met het werkwoord als een lijdend voorwerp. Evengoed wordt ook de linkse combinatie van onderwerp en werkwoord volgens andere regels verbonden met het lijdend voorwerp dan de rechtse waar het onderwerp verbonden wordt met de combinatie van werkwoord en lijdend voorwerp. De verschillende syntactische verbindingen zijn op hun beurt gekoppeld aan verschillende semantische operaties. Dat geschiedt op zo'n manier, dat allebei de structuren uit de figuur één en dezelfde betekenis krijgen toegewezen, namelijk dat zekere popzangeres verafschuwd wordt door zekere tenor. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. De categoriale machineGa naar eind52.1 CategoriestructurenDe aantrekkelijkheid van het categoriale woordsoortbegrip berust op een uiterst doorzichtige, rekenkundige benadering waarbij de categorieën, of syntactische typen zoals wij ze hier ook zullen noemen, beschouwd worden als verzamelingen van uitdrukkingen. Beschouw het vocabularium van een willekeurige taal, bijvoorbeeld het Nederlands. Laat nu S de verzameling zijn van alle uitdrukkingen die men verkrijgt als men de concatenatie-operatie loslaat op dit vocabularium, en richten we onze aandacht op de deelverzamelingen van S. Een klein aantal van deze deelverzamelingen duiden we aan door middel van een basistype; voor de gedachtenbepaling laten we de basistypen hier samenvallen met de hoofdgroepen N, NP, AP, PP en S. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 26]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
We willen echter ook andere deelverzamelingen van S kunnen thuisbrengen in enige categorie. Daartoe definiëren we een drietal operaties, de hoofdbewerkingen van de rekenkunde der categorieën, waarmee we van twee willekeurige typen een nieuw, samengesteld type kunnen maken. De betekenis van de hoofdbewerkingen leggen we in de volgende definities vast.
Het produkttype A·B duidt de verzameling uitdrukkingen aan die bestaan uit de concatenatie van een uitdrukking behorend tot het type A en een uitdrukking behorend tot het type B. Met de rechtsdeling C/B duiden we de verzameling uitdrukkingen aan die met een uitdrukking van het type B ter rechterzijde een uitdrukking van het type C vormen; met de linksdeling A\C, de verzameling uitdrukkingen die met een uitdrukking van het type A ter linkerzijde een uitdrukking van het type C vormen. De breukcategorieën worden ook wel functoren genoemd. Zij bestaan uit twee onmiddellijke componenten: de noemer is het domein-type dat aangeeft welke uitdrukking een functor als argument verlangt, en de teller het bereikstype, m.a.w. de categorie die bij combinatie met het gewenste argument wordt gevormd. (We lezen dus Bereik/Domein versus Domein\Bereik!) Breuktypen worden toegekend aan onvolledige uitdrukkingen. We stelden net vast dat de inwendige structuur van de functor-categorieën de combinatorische informatie bevat die gewoonlijk door middel van een stel herschrijfregels wordt vastgelegd. Ter vergelijking geeft het schema hieronder een paar herschrijfregels voor het Nederlands, en de corresponderende lexicale type-toekenningen in een categoriaal model.
Laten we voor een volledige werkwoordsgroep om te beginnen eens de categorie VP gebruiken. Slapen, als intransitief werkwoord (V1) vormt in z'n eentje een complete werkwoordsgroep, en krijgt daarom gewoon in het lexicon VP als categorie toegewezen. Het transitieve eten daarentegen is een onvolledige uitdrukking die samen met een NP een VP vormt; vandaar de functorcategorie NP\VP. Op een zelfde manier vraagt liggen om een voorzetselgroep: dit werkwoord krijgt de categorie PP\VP. Bij het werkwoord leggen zijn er twee mogelijkheden. Dit werkwoord zoekt ter linkerzijde eerst | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 27]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
een voorzetselconstituent, om daarna met een nominale groep een VP te vormen. Men kan echter ook stellen dat het de concatenatie van een nominale groep met een voorzetsel constituent zoekt. De tweede optie correspondeert met een ‘platte’ VP structuur, de eerste met een binair vertakkende. Het verschil tussen leggen en maken betreft het eerste argument. Waar het eerste werkwoord een PP zoekt ter linkerzijde, zoekt het tweede een adjectivische constituent. De laatste herschrijfregel stelt dat een zin bestaat uit een NP en een VP. Bij de vertaling van deze regel in categoriaal formaat zien we dat wat we tot nog toe aangeduid hebben als VP in feite zelf weer een onvolledige categorie is die links een NP zoekt om een S op te leveren. In deze visie wordt het werkwoord beschouwd als het hoofd waaruit de hele zin wordt geprojecteerd. Maar we kunnen de rollen ook omkeren, en van het subject een complexe categorie S/(NP\S) maken: het onderwerp wordt nu beschouwd als een functor die een VP (i.e. NP\S) ter rechterzijde zoekt om een zin op te leveren. In de volgende paragraaf zullen we zien wat de logische samenhang is tussen deze alternatieven. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Afgeleide notiesDe inwendige structuur van categorie-objecten stelt ons in staat een aantal begrippen die in een herschrijfaanpak op boomstructuren worden gedefinieerd strikt locaal te karakteriseren. We denken hierbij speciaal aan de begrippen hoofd en modificeerder. Functoren dienen zich aan in twee gedaanten, afhankelijk van het al of niet gelijk zijn van de domein- en de bereikscategorie. Een functor X/Y (of de linkskijkende tegenhanger Y\X) levert een resultaatscategorie X op bij combinatie met een argument Y, dat wil zeggen dat de distributie van functor en resulterende combinatie onderling verschillen. We kunnen zulke functoren beschouwen als het hoofd van een exocentrische constructie, met de argumentscategorie Y als het complement. Daar staat tegenover dat een functor van het type X/X (of X\X) zich met een X-argument laat combineren tot een resultaat van dezelfde categorie X. Dat komt er dus op neer dat combinatie een categorie oplevert met dezelfde distributionele eigenschappen als de argumentscategorie. Deze functoren zijn derhalve modificeerders van het hoofd van een endocentrische woordgroep. Let op dat hieruit volgt dat modificeerders optioneel en stapelbaar zijn, in tegenstelling tot hoofden: een kleine blonde Amerikaanse zangeres versus * Pavarotti zingt danst. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Categorie-grafenOm de verschillen tussen de onderdelen van een complexe categorie aan het licht te brengen kunnen categoriestructuren afgebeeld worden als attribuutwaarde-grafen.Ga naar eind6 In deze representatie zijn de takjes (arcs) gelabeld met attributen (kenmerken) en de knopen met waarden voor deze kenmerken. Om de noodzakelijke structuur te beschrijven kunnen we volstaan met de kenmerken CONNECTIEF, BASCAT, DOMEIN, BEREIK, EERSTE en LAATSTE. De waarden voor de kenmerken CONNECTIEF en BASCAT zijn atomair. Ze zijn respectievelijk afkomstig uit de verzameling der connectieven en die der basiscategorieën. DOMEIN, BEREIK (voor functorcategorieën) en EERSTE, LAATSTE (voor produktcategorieën) hebben zelf categoriestruc- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 28]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
turen als waarde. Hieronder enkele voorbeelden: in de linkerkolom de categorie die we toekennen aan een uitdrukking als leggen, in de rechterkolom het type van een uitdrukking als Opa op, i.e. de concatenatie van een NP en een voorzetsel. Die uitdrukking zal men niet direct een doordeweekse constituent noemen; maar merk op dat we in ons type-arsenaal wel degelijk een naam hebben voor dergelijke bewoners van het categoriale universum. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2.2. ReductiewettenDe grondbeginselen van de categoriale rekenkunde volgen onmiddellijk uit de in 2.1 gegeven definities, zoals aangetoond in Lambek (1958, 1988). In de vorige paragraaf hebben we categorieën, of typen, geïnterpreteerd als verzamelingen van uitdrukkingen. Als verzamelingen van uitdrukkingen beschouwd, zijn de typen dan ook geordend door de relatie ‘⊆’, i.e. de relatie van verzamelingtheoretische inclusie. Ten opzichte van deze relatie hebben de categorie-vormende operatoren ‘·’, ‘/’ en ‘\’ dan de volgende eigenschappen:
Met de ordening ‘X⊆Y’ bedoelen we hier niets anders dan dat alle uitdrukkingen die behoren tot type X ook behoren tot type Y, of anders gezegd, dat X herleidbaar is tot Y. Axioma 1 zegt ons dat produktvorming, i.e. concatenatie, een associatieve operatie is. Anders dan de produktvorming in de rekenkunde, waar immers altijd geldt dat A maal B gelijk is aan B maal A, is zij echter niet commutatief. Daarom heeft de categoriale produktvorming een linker- en een rechter-inverse: de operaties van linksdeling | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 29]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
en rechtsdeling, zoals Axioma 2 en Axioma 3 ons voorhouden. Uit deze fundamentele eigenschappen kunnen we combinatiewetten en type-overgangen als stellingen afleiden. De wetten hieronder (telkens in een rechteren een linker variant) zijn wellicht de meest bekende. Zoals we dadelijk zullen aantonen, verlenen zij aan de categoriale theorie haar kenmerkende flexibiliteit, die het mogelijk maakt een gegeven rij op verschillende, gelijkwaardige wijzen tot een bepaald type te herleiden.
Dat de combinatie van een uitdrukking van de categorie X/Y met een uitdrukking van type Y een uitdrukking oplevert die behoort tot de categorie X (zoals de applicatieregel dit stelt), volgt onmiddellijk uit Axioma 2. Applicatie is de enige combinatiemogelijkheid in klassieke categoriale systemen. Maar in onze meer flexibele aanpak zijn er nog vele andere geldige type-overgangen en manieren om categorieën samen te nemen (‘Geldig’ in die zin, dat ze de semantiek van de categorie-vormende operatoren, zoals vastgelegd in de definities, bewaren.) De compositiewet komt neer op het volgende: als er een functor Y/Z is, die ter rechterzijde een Z zoekt om een Y op te leveren, en links daarvan vinden we een functor die ter rechterzijde een Y zoekt om een X categorie op te leveren, dan kunnen we de twee functoren X/Y en Y/Z combineren tot een uitdrukking van het type X/Z, m.a.w. een onvolledige uitdrukking, die ter rechterzijde nog steeds een Z zoekt om in combinatie daarmee een X te vormen. Compositie is de categoriale variant van het schrappen van een gemeenschappelijke middenterm in de rekenkunde: 3/4 · 4/5 = 3/5. De wet van associativiteit legt vast dat wanneer een categorie twee argumenten zoekt waarvan het ene ter rechterzijde en het andere ter linkerzijde gevonden moet worden, het er niet toe doet welk argument er eerst wordt weggestreept, als de argumenten maar in de goede volgorde blijven staan. De ophogingswet ten slotte maakt het mogelijk de functor-argumentenverhouding tussen uitdrukkingen om te draaien. We hebben al een voorbeeld daarvan gezien, bij de bespreking van de keuze voor subject NP dan wel VP (= NP\S) als hoofdfunctor in de zin. De combinatie van een NP en een VP levert een zin op: NP · (NP\S) ⊆ S. Ophoging zegt dat we net zo goed het subject als een functor kunnen beschouwen die ter rechterzijde een NP\S zoekt om een S te vormen. De wetten R1-R4 zijn zo voor de hand liggend dat ze met enkele denkstappen op onze rekenkundige grondbeginselen terug te voeren zijn. Voor willekeurig ingewikkelde stellingen willen we graag beschikken over een algoritme, dat in een eindig aantal stappen vermag te beslissen of een gegeven stelling geldig is of niet, zonder telkens ons denkvermogen op de proef te stellen. Het bewijstheoretische onderzoek van categoriale afleidbaarheid heeft inderdaad een dergelijke beslissingsprocedure opgeleverd, zodat we ons met stelligheid uit kunnen laten over de (on)geldigheid van voorgestelde ca- | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 30]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
tegoriale combinatiewijzen. In het kader van deze bijdrage kunnen we hier echter niet dieper op ingaan.Ga naar eind7 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Relativisering van het constituentenbegripDe flexibiliteit van de categoriale systemen die wij hier onderzoeken, zit hem in het feit dat Axioma's 2 en 3 tweezijdige implicaties zijn (‘dan en slechts dan als’). In een klassieke categoriale grammatica hebben deze axioma's de vorm van een eenzijdige implicatie, in plaats van een tweezijdige:
Dat kleine verschil heeft vérstrekkende gevolgen: in een klassiek systeem is de applicatie-wet het enige toelaatbare reductieschema; wetten als compositie, ophoging of associativiteit zijn simpelweg niet afleidbaar. In een systeem met applicatie als enige reductieschema wordt een ondubbelzinnige uitdrukking geassocieerd met een unieke rigide structuuranalyse. Laten wij dat demonstreren aan de hand van het eerder gegeven voorbeeld Pavarotti verafschuwt Madonna. Stel dat we in het lexicon de volgende weinig verrassende type-toekenningen aantreffen. Een zuivere applicatie-afleiding levert dan onderstaande boomstructuur op.
In wat volgt zullen we voor categoriale afleidingen een typografisch handiger formaat gebruiken: een inspringende lijst. Omgezet in dit formaat ziet ons voorbeeld er dan zo uit (i.e. het boompje hierboven is een kwartslag kloksgewijs gedraaid):
Deze structuur laat zich aldus afleiden: door allereerst rechts-applicatie toe te passen wordt een VP constituent verafschuwt Madonna geconstrueerd. Deze laat zich vervolgens met behulp van links-applicatie combineren met het subject tot een zin. Flexibele categoriale systemen (mét reductiewetten als R1-R4, i.e. met de tweezijdige implicaties van Axioma 2 en Axioma 3) zijn gebaseerd op het | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 31]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
inzicht dat de rigide notie ‘constituent’ gerelativiseerd kan worden. De interne structuur van de functorcategorieën laat verschillende wijzen van combineren toe, zodat een ondubbelzinnige uitdrukking verbonden wordt met een aantal alternatieve afleidingen. Voor het loslaten van het starre constituentenbegrip is een keur aan motieven aan te voeren. We zullen ons hier concentreren op twee centrale fenomenen. In de eerste plaats is het met de gegeven reductiewetten mogelijk om willekeurige uitdrukkingen een uniform links-vertakkende structuur toe te kennen, terwijl tegelijkertijd de semantische interpretatie stap voor stap wordt opgebouwd. Dat wil zeggen, de grammaticale theorie die ten grondslag ligt aan deze reductiewetten kan ter zelfder tijd worden beschouwd als een model voor het van links naar rechts verwerken en incrementeel interpreteren van uitdrukkingen. In de tweede plaats biedt deze aanpak een uniforme verklaring voor het alomtegenwoordige verschijnsel van de Boole'se nevenschikking. Verschillende vormen van nevenschikking van zogeheten ‘niet-constituenten’ kunnen gereduceerd worden tot simpele nevenschikking van constituenten als we bereid zijn het constituentenbegrip in categoriale zin uit te breiden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Links-associativiteitDe applicatie-analyse van Pavarotti verafschuwt Madonna is sterk-equivalent met de conventionele herschrijf-representatie voor dit soort zinnen. Het transitieve werkwoord en het lijdend voorwerp vormen samen een VP-constituent, en onderwerp plus VP geven een zin. Stel nu dat we minder zijn geïnteresseerd in constituentenstructuur dan in afleidbaarheid. Met andere woorden, we hebben belangstelling voor de vraag: gegeven een rijtje typen, wat kunnen we daar voor type uit afleiden? Het zal duidelijk zijn dat het voor de beantwoording van deze vraag niet uitmaakt of we het transitieve werkwoord beschouwen als een uitdrukking van type (NP\S)/NP, dan wel NP\(S/NP). De associativiteitswet R3 geeft uitdrukking aan deze categoriale gelijkwaardigheid. Beschouw de onderstaande afleiding.
In deze afleiding is ervoor gekozen eerst de categorie van de persoonsvorm te veranderen met behulp van de wet der associativiteit. Deze verandering heeft als aangenaam gevolg dat meteen d.m.v. applicatie het subject en de persoonsvorm gecombineerd kunnen worden, met als resultaat de onorthodoxe constituent Pavarotti verafschuwt, van type S/NP: een onvolledige uitdrukking die nog aanvulling ter rechterzijde behoeft in de vorm van de objects-NP. De linkerhoek Pavarotti verafschuwt is nu, via applicatie, tot een zin herleidbaar met het object Madonna. Een belangrijk voordeel van deze afleiding is dat de zin van links naar rechts ontleed wordt, zoals een taalgebruiker die zin ook hoort of leest. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 32]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
NevenschikkingGa naar eind8Zoals we hierboven aangeduid hebben, kan de links-vertakkende analyse gezien worden als een model voor het van links naar rechts verwerken van de zin, met incrementele opbouw van de verlangde semantiek. Stel echter dat we de grammaticatheorie en de verwerkingstheorie strikt gescheiden willen houden. Dan lijkt er voor eenvoudige zinnen weinig behoefte te zijn aan alternatieve structuren, zoals de onorthodoxe constituent Pavarotti verafschuwt hierboven. Cruciale grammaticale motivatie voor het flexibele constituentenbegrip is afkomstig uit het gebied van de nevenschikking. Aannemend dat alleen categorieën van dezelfde soort in een nevenschikkend verband kunnen worden opgenomen, heeft nevenschikbaarheid altijd gegolden als standaardtest voor constituentschap. Stel nu dat we een oneindige verzameling van mogelijke typen voor de Boole'se (logische) voegwoorden en, of en maar tot onze beschikking hebben. Al deze typen hebben de structuur (X\X)/X, dat wil zeggen dat deze connectieven twee zinsdelen van gelijk type verbinden. Met onze flexibele opvatting van wat een zinsdeel is, kunnen we nu de volgende non-constituent nevenschikking herleiden tot eenvoudige nevenschikking van zinsdelen.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ophoging en compositie: de bijzinHierboven zagen we een voorbeeld van de interactie tussen de applicatie [R1] en associativiteit [R3], bij het links-associatief verwerken van een hoofdzin. Het nut van compositie [R2] en ophoging [R4] blijkt duidelijk als we de Nederlandse bijzinsvolgorde beschouwen. In de bijzin staat het werkwoord helemaal achteraan: het wordt voorafgegaan door zijn argumenten, maar voor het einde van de zin bereikt wordt, is het onduidelijk van welke functor die argumenten afhankelijk zijn. Met uitsluitend applicatie krijgt de onderstaande zin een strikt rechts-vertakkende ontleding: pas wanneer de uitdrukking is wordt gelezen, met type AP\(NP\S), kan met het wegstrepen van argumenten een aanvang gemaakt worden.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 33]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Een links-associatieve ontleding wordt mogelijk, zodra we ophoging en compositie in onze beschouwing betrekken. Om de linkerhoek omdat Pavarotti te combineren, hebben we eerst de subjects-NP opgehoogd tot S/(NP\S). Nu vinden we een middenterm S, die bij de verbinding van complementeerder en onderwerp kan worden weggestreept; de resultaatscategorie wordt dan S/(NP\S). Een verbinding met de nu volgende uitdrukking gek van type AP is niet onmiddellijk mogelijk. Maar wat we deden met het subjectsargument, kunnen we met elk argument doen: we hogen het AP-type op tot een functor die (d.m.v. compositie) gecombineerd kan worden met de reeds bereikte categorie S/(NP\S). Daarmee herleiden we omdat Pavarotti gek tot de categorie S/(AP\(NP\S)), een onvolledige uitdrukking, die rechts nog een werkwoord van het type AP\(NP\S) zoekt om een volledige zin op te leveren. De laatste stap in de links-associatieve afleiding is een simpele rechts applicatie.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2.3 Het oplossen van categoriale vergelijkingen: polymorfisme en unificatieBij de afleidingen hierboven hebben we een belangrijk punt nog onvermeld gelaten. Als we ons bedienen van een flexibel categoriaal systeem, met reductiewetten als R1-R4, dan kunnen we, waar een applicatie-afleiding faalt, gebruik maken van type-veranderende regels zoals ophoging, of andere combinatiewetten zoals compositie. Wat we nog niet hebben aangegeven is hoe een ontleedalgoritme zijn weg vindt tussen deze mogelijkheden. De afleidingen die we de lezer hebben voorgeschoteld zijn als het ware het eindprodukt van een probleemoplossing, en we willen nu de tussenliggende stappen blootleggen. De categorie-objecten die we tot nu toe bestudeerd hebben, waren volledig gespecificeerde structuren. Het ontleedalgoritme wordt echter op verschillende punten geconfronteerd met partieel gespecificeerde categorie-objecten, zogenaamde polymorfe typen. Die partiële informatie wordt dan in de loop van de afleiding gaandeweg nader gespecificeerd door middel van unificatie. We zullen deze twee sleutelbegrippen nu iets nader uitwerken.Ga naar eind9 Een polymorf type, zoals gezegd, is niets anders dan een categorie die niet volledig gespecificeerd is, maar ongeïnstantieerde variabelen bevat. Om variabelen van atomaire categorieën te onderscheiden, schrijven we ze hier met kleine letters uit het eind van het alfabet. Hier zijn een paar voorbeelden: Polymorfe typen: (x/(NP\x)), y, ((AP/y)/(AP/y)),... | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 34]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
De unificatie van twee categorie-objecten is dan, intuïtief gesproken, de meest algemene categorie die, als dat mogelijk is, de informatie van beide categorieobjecten combineert. Dat gebeurt door de variabelen in beide categorieën een dusdanige waarde te geven dat beide categorieën identiek worden. Bij wijze van voorbeeld zoeken we hieronder de unificatie voor de polymorfe typen (AP/x)/(AP/x) en (y/PP)/z. Daarna volgt een expliciete definitie van categoriale unificatie.Ga naar eind10 Unificatie. Twee typen T1 en T2 kunnen als volgt geünificeerd worden: Keren we nu terug naar de wetten R1-R4. Deze wetten moeten gelezen worden als volledig algemene reductieschema's, geformuleerd in termen van variabele (sub)typen X,Y,Z. De daadwerkelijke invulling van de polymorfe reductieschema's in een concrete afleiding kan nu bepaald worden door unificatie. We proberen hier nogmaals een links-vertakkende afleiding te geven voor onze voorbeeldzin omdat Pavarotti gek is, en maken nu de unificerende substituties expliciet.
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 35]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Voor de reductie ‘S/S · NP ⊆ Resultaat?’ is er in R1-R4 geen onmiddellijke oplossing te vinden; immers, de noemer S en NP zijn ongelijke atomen, en unificatie van ongelijke basiscategorieën faalt. Daarom wordt NP opgehoogd tot het polymorfe type x/(NP\x): de meest algemene unificeerder m.b.t. de ophogingswet laat de invulling van het resultaatstype x nog oningevuld. Nu proberen we een reductie tot stand te brengen tussen S/S en x/(NP\x). Dat kan met behulp van de compositiewet, als we de unificerende substitutie {x= S} uitvoeren, met als resultaat het volledig ingevulde type S/(NP\S). Ophoging van het AP argument levert opnieuw een polymorfe functor op, ditmaal y/(AP\y). Die kunnen we met het reeds bereikte type S/(NP\S) combineren door middel van compositie aan de hand van de unificerende substitutie {y=(NP\S)}, met als nieuw resultaat de functor S/ (AP\(NP\S)). Een eenvoudige applicatie-stap rondt de derivatie af. Een tweede voorbeeld toont de interactie tussen ophoging en compositie, en een polymorf voegwoordtype (x\x)/x voor het Boole'se partikel en. Nevenschikking van ‘niet-constituenten’ wordt herleid tot nevenschikking van de polymorfe typen voor de uitdrukkingen Pavarotti gek en Madonna dom. Zoals in het voorgaande voorbeeld geven we ditmaal expliciet de unificerende substituties aan.
We vergeleken hierboven de wetten R1-R4 met rekenkundige bewerkingen voor breuken en produkten. De toevoeging van polymorfe categorieën met het bijbehorende unificatie-mechanisme is dan in hoge mate vergelijkbaar met het rekenkundig mechanisme van het oplossen van vergelijkingen met variabelen. In wat volgt willen we nu onze aandacht richten op enkele praktische toepassingen van de hier geschetste categoriale aanpak. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 36]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3. PraktijkIn het kader van de samenwerking tussen het Instituut voor Nederlandse Lexicologie en CELEX wordt op grote schaal praktisch gebruik gemaakt van de bovenstaande ideeën. Voor een goed begrip van dit gebruik dient iets van de desbetreffende projecten belicht te worden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CELEXCELEX (CEntrum voor LEXicale informatie) is een gezamenlijke onderneming van 5 Nederlandse instituten: de Interfacultaire Werkgroep voor Taal- en Spraakgedrag van de KU Nijmegen, het Max-Planck Institut für Psycholinguistik in Nijmegen, het Instituut voor Perceptieonderzoek in Eindhoven, het Instituut voor Nederlandse Lexicologie in Leiden, en het Doctor Neherlab van de PTT in Leidschendam. Het projekt is gestart op 1 januari 1986 en gericht op het opbouwen van een meertalige, multifunctionele lexicale databank. Deze databank gaat, onder meer, een afspiegeling van de Nederlandse en de Engelse woordenschat bevatten, verrijkt met vele soorten informatie. Te denken valt hierbij aan uitspraak, morfologische geleding en frequentie. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
INLBij het Leidse Instituut voor Nederlandse Lexicologie wordt al geruime tijd gewerkt aan het samenstellen van een representatief corpus van het hedendaags Nederlands. Op den duur zal deze materiaalverzameling dienen voor het samenstellen van een nieuwe generatie woordenboeken. Vooralsnog echter wordt de taalbank toegankelijk gemaakt voor taalkundig onderzoek in het algemeen. De databank bevat meer dan 45.000.000 woorden waaraan linguïstische informatie wordt toegevoegd. Onlangs werd een groot deel van de woorden half-automatisch voorzien van een morfologische structuur. Op dit moment is alle aandacht gericht op de syntactische structuren die in de verzamelde teksten te vinden zijn. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Morfologische analyseIn een eerdere fase van de samenwerking van CELEX en INL is een categoriale morfologische ontleder ontwikkeld.Ga naar eind11 Het categoriale kader bleek bij uitstek geschikt voor ontleding op basis van de inmiddels bij CELEX verzamelde lexicale informatie. Met behulp van deze ontleder is geprobeerd voor alle CELEX-stammen en bovendien voor enige honderdduizenden INL-woordtypen een ontleding te vinden. De programmatuur voorzag ruim 80% van de ingevoerde woorden van een of meer tentatieve analyses. Intensieve nacontrole heeft geresulteerd in enorme, vrijwel foutenvrije, bestanden met morfologisch geanalyseerde woorden, die raadpleegbaar (zullen) zijn bij de beide instituten. Daarnaast leverde deze morfologie-ronde een bestand van nagenoeg alle ongelede woorden van het Nederlands op. Hieronder geven we een voorbeeld van het soort informatie dat beschikbaar is: opdeling in morfemen, met categoriale informatie bij de samenstellende delen. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 37]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
‘adembeklemmend’, A, | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Syntactische analyseDe flexibele categoriale grammatica is daarnaast een middel bij uitstek om voor CELEX frequentiegegevens te verzamelen en om voor het INL het corpus syntactisch te ontsluiten. In het kader van de samenwerking van deze instituten zijn ontleedprogramma's ontwikkeld die gebaseerd zijn op deze theorie. We zullen in wat nu volgt een schets geven van de structuur van de programma's en de te verwachten resultaten.Ga naar eind12 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
AmbiguïteitIedere taalkundige theorie wordt geconfronteerd met het probleem van de lexicale ambiguïteit, oftewel dubbelzinnige woordsoorttoekenning. In de literatuur zijn hiervoor tal van oplossingen voorgesteld, maar daarmee verdwijnt het probleem niet. De problemen die homonymie oplevert voor automatische ontleding zijn legio. Categoriale grammatica's, die het lexicon centraal stellen, lijken uitermate kwetsbaar in dit opzicht. Het is immers dikwijls zo dat voor ieder type constructie waarin een lexicaal element kan voorkomen, een andere categorie moet worden toegekend. Neem het verschil tussen hoofd- en bijzin in het Nederlands. In de hoofdzin staat de persoonsvorm op de tweede plaats, in de bijzin staat hij achteraan. Uit de volgende voorbeelden is af te lezen hoe in een categoriaal model dit verschil in plaatsingsmogelijkheden correspondeert met een verschillend type.
Het is duidelijk dat dit mechanisme resulteert in een aanzienlijke uitdijing van het lexicon. Door deze uitdijing ontstaat wat wel de combinatorische explosie genoemd wordt. Stel dat een zin bestaat uit 10 woorden die elk tweevoudig ambigu zijn, dan zijn er 210, of 1024, typecombinaties te controleren op grammaticaliteit. Voegen we nog een woord toe dat twee categorieën heeft, dan verdubbelt dat aantal, en hebben we te maken met meer dan tweeduizend combinaties die allemaal gecontroleerd moeten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 38]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
worden. Dat deze getallen niet uit de lucht gegrepen zijn moge blijken uit de hieronder gegeven combinaties voor het rijtje de groei van het haar. Hierin zijn groei (nomen versus werkwoord) en van (hoofd van een voorzetselvoorwerp versus hoofd van een nabepaling) tweevoudig ambigu, terwijl haar drie categorieën toegekend krijgt (nomen, persoonlijk dan wel bezittelijk voornaamwoord).Ga naar eind13 Het Cartesisch produkt van deze ambiguïteiten levert maar liefst twaalf combinaties op.
Dit gegeven heeft computationeel desastreuze gevolgen: voor elk van de combinaties dient een structuur opgebouwd te worden omdat we pas helemaal aan het eind van het opbouwproces weten wat de eindcategorie van die structuur is. De exacte mathematische fundering van categoriale grammatica's biedt echter onverwachte uitwegen uit deze netelige situatie. Beschouwen we ze namelijk nauwkeuriger, dan stuiten we op algemene beperkingen waaraan afleidingen in dit soort systemen blijken te voldoen. De beperkingen hebben het karakter van invariantie-eigenschappen over | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 39]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
categoriale afleidingen. Deze invariantie-eigenschappen kunnen fungeren als gretige scharen die aanzienlijke delen van de zoekboom wegsnoeien. De potentieel dramatische gevolgen van de combinatorische explosie blijven daarmee binnen de perken. Hieronder volgt een beschrijving van een van die invarianten. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Het Van Benthem-GetalDoor de wiskundige opzet van categoriale grammatica's is het mogelijk om formele beperkingen aan te geven op de afleidbaarheid van rijtjes categorieën. Voldoet zo'n rijtje niet aan deze formele beperkingen, dan kan het geen welgevormde reeks zijn voor een gegeven resultaattype. Met andere woorden, wordt niet aan dit soort beperkingen voldaan, dan is het onmogelijk om de lexicale elementen op geldige wijze te verbinden en tot het eindtype te herleiden. Een van de voor onze doeleinden interessantste invarianten heeft betrekking op het zogenaamde Van Benthem-getal van categoriale typen. Het Van Benthem-getal telt het aantal positieve (teller) en negatieve (noemer) voorkomens van basistypen in willekeurige (mogelijke complexe) typen, of in rijtjes van typen. De volgende inductieve definitie legt op ondubbelzinnige wijze vast wat we hiermee bedoelen. (Lees ‘getal(X,Type)’ als: ‘het X-getal van Type is...’). getal(X,X) = 1 voor basistypen X De lezer zal zelf gemakkelijk na kunnen gaan dat het NP-getal van NP 1 is, het NP-getal van S 0, het N-getal van (N\N)/NP 0 en het NP-getal van diezelfde categorie -1, enzovoorts. Generaliseren we de getalsfunctie naar rijtjes dan geldt dat als X een basistype is, het X-getal van een rijtje categorieën gelijk is aan de som van de X-getallen van de elementen van het rijtje. Dat is te zeggen: getal(X,[Y1,...,Yn]) = getal(X,Y1) +...+ getal(X,Yn) Laten we dit illustreren aan een rekenvoorbeeld. Beschouw wederom de zin Pavarotti verafschuwt Madonna, met de corresponderende rij NP, (NP\S)/ NP,NP. Als we afzien van de hier irrelevante basistypen (die immers alle nul op rekest krijgen) dan leert toepassing van de regels ons dat het element Pavarotti een NP-getal van 1 en een S-getal van 0 heeft, verafschuwt een NP-getal van -2 en een S-getal van 1, en Madonna weer een NP-getal van 1 en een S-getal van 0. Het NP-getal van de gehele zin is dan 1 + -2 + 1 = 0, het S-getal 0 + 1 + 0 = 1. Van Benthem bewijst dat de getalsinformatie een invariant is over derivaties in de zin van de volgende stelling. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 40]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Stelling (Van Benthem 1986). Als een rijtje typen A1,....An herleidbaar is tot een resultaatstype B, dan moet voor alle basistypen X het X-getal van het rijtje A1,....An gelijk zijn aan het X-getal van B. De stelling leert ons dat een gegeven resultaatstype alleen dan uit een rijtje typen afleidbaar is, als dat rijtje dezelfde getalwaarden heeft als de resultaatscategorie. We zagen dat ons voorbeeld Pavarotti verafschuwt Madonna een S-getal van 1 heeft en dat het getal voor alle andere categorieën 0 is. Geven we een derivatie voor deze rij, dan komen we uit op een eindcategorie S. Ook hiervan geldt dat het S-getal 1 is en het getal voor alle andere categorieën 0. De getalwaarden voor rijtje en resultaatscategorie zijn dus gelijk. Dat blijkt nu geen toeval te zijn: voor alle basistypen X is het X-getal van de categorie van de eindknoop van de derivatie gelijk aan het X-getal van de blaadjes. Hoe kunnen we nu deze invariant gebruiken om de zoekboom te snoeien? Neem aan, dat we ons afvragen of het eerder gegeven voorbeeld de groei van het haar een NP zou kunnen zijn. We hadden gezien dat daar maar liefst twaalf combinaties van categoriale toekenningen mee verbonden waren (zie hierboven). Gebruiken we het Van Benthem-getal met de hierboven geformuleerde stelling, dan weten we van tevoren dat we alleen die combinatie in beschouwing hoeven te nemen die een NP-getal van 1, en 0 als getalwaarde voor alle andere categorieën heeft. Dat geldt slechts voor de combinatie: NP/N, N, (N\N)/NP, NP/N, N Zijn we slechts geïnteresseerd in desambiguering van de woorden, dan hoeven we in dit geval niet eens aan het ontleden te beginnen: de Van Benthem schaar heeft van de hele zoekboom slechts één takje overgelaten. Slechts als we echt willen weten of ons voorbeeld een NP is, dan moeten we die ene combinatie nog het (relatief ingewikkelde, dus tijdrovende) proces van ontleding laten ondergaan. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ontbrekende informatieEen ander probleem bij het verwerken van het corpus is dat van de ontbrekende informatie. De CELEX-woordenschat bestaat eensdeels uit woorden afkomstig van woordenboeken, en anderdeels uit woorden uit het INL-corpus. Categoriale informatie is bij de woordenboekwoorden af te leiden uit de woordenboekinformatie, maar die informatie is dikwijls niet specifiek genoeg. Met name waar het valentie van werkwoorden betreft schiet de informatie die de woordenboeken leveren ernstig tekort. Bij de corpuswoorden is de situatie zo mogelijk nog droeviger: in principe is daarover geen enkele informatie beschikbaar. De eerder genoemde ronde van morfologische ontleding heeft echter heel veel gegevens opgeleverd: behalve een structuur levert morfologische ontleding immers ook een woordsoort op. Ook hierbij geldt echter weer dat deze informatie, hoe nuttig ook, onvoldoende is: herkenning van een woord als werkwoord leert ons bijvoorbeeld niet, hoeveel argumenten dat werkwoord verlangt. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 41]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Een oplossing voor de geschetste problemen wordt geboden door het eerder beschreven unificatie-mechanisme. We hebben gezien hoe het mogelijk is om tijdens het opbouwen van een derivatie de ongespecificeerde informatie in een categoriestructuur nader in te vullen. Omdat we van dit mechanisme gebruik maken hoeft er niet buitengewoon veel tijd gestoken te worden in het aanmaken van een volledig gespecificeerd ontleedlexicon. Door gebruik te maken van informatie die er is, kan informatie die ontbreekt afgeleid worden. Een voorbeeld: als we van verafschuwt alleen weten dat het op zijn minst transitief is, dan kunnen we uit het voorkomen ervan in Pavarotti verafschuwt Madonna afleiden dat die vorm hier de categorie (NP\S)/NP moet krijgen, en niet bijvoorbeeld ((NP\S)/NP)/NP (zoals geeft in Pavarotti geeft de zangeres een hand) of (NP\S)/S (zoals beweert in Pavarotti beweert dat hij de zangeres verafschuwt). In het ideale geval levert het ontledingsproces zelfs als bijprodukt tentatieve subcategorisatieschema's op voor een groot aantal werkwoorden. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
CorpusanalyseVoor de desambiguering van het INL-corpusmateriaal hebben we een aantal programma-modules ontwikkeld die gebruik maken van unificatie en het Van Benthem-getal. Op grond van orthografische gegevens worden automatisch zinnen afgescheiden uit de teksten. In een ontleed-lexicon afgeleid van de CELEX-bank wordt (al of niet volledige) categorie-informatie voor alle woorden van die zinnen opgezocht. Vervolgens worden ze aan de Van Benthem-getal-module voorgelegd met de vraag, of uit de verschillende categorietoekenningen een zodanige keuze gemaakt kan worden dat het S-getal van het geheel 1 is en het getal voor alle overige categorieën 0. Slaagt deze Van Benthem-zeef erin, een of meer van zulke combinaties te vinden, dan gaat een ontleder vervolgens na, of het opbouwen van een syntactische structuur nog verder kan desambigueren (de getalsinvariant houdt immers geen rekening met woordvolgorde). Komt geen van de combinaties door de getal-test, dan hebben we te maken met een ongrammaticale zin. Wie ooit met een tekstcorpus gewerkt heeft, weet, dat dat soort tekstmateriaal nogal weerbarstig is, zeker als dat corpus, zoals dat van het INL, in grote lijnen ongecorrigeerd is. Op alle niveaus wordt automatische analyse tegengewerkt. Allereerst moeten we constateren dat auteurs wel eens ongrammaticale zinnen neerschrijven. Vervolgens voegt het drukkers- en uitgeversbedrijf daar een portie zetfouten aan toe. In de volgende fase, het omwerken van gedrukt materiaal tot tekst die manipuleerbaar is met een computer, kan ook van alles misgaan: gebeurt dat door overtikken, dan komen er nieuwe tikfouten bij, gebeurt dat met een leesautomaat, zoals op het INL, dan blijkt de daarvoor gebruikte apparatuur nimmer 100% betrouwbaar. Quantitatieve gegevens zijn nog niet beschikbaar, maar het valt te voorzien dat een aanzienlijk deel van de zinnen die aan de ontleedmodules zullen worden aangeboden, als ongrammaticaal afgewezen wordt. Dat kan zowel negatief als positief worden opgevat. Het negatieve daaraan is, dat de frequentiegegevens die deze automatische ronde oplevert niet volledig nauwkeurig zijn, omdat een deel van het materiaal niet door de analyse heenkomt en dus niet in de beschouwing betrokken wordt. Een belangrijk positief aspect | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 42]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ervan is echter dat deze analyse een nauwkeurig hulpmiddel kan zijn in de correctie van het bestand. Als we namelijk mogen aannemen dat de grammatica volledig is en dat er niet verschrikkelijk veel ongrammaticale zinnen geschreven worden, dan bevatten de meeste zinnen die als ongrammaticaal aangemerkt worden echte fouten, die gecorrigeerd moeten worden. Zinnen daarentegen die volgens de ontleedprogramma's grammaticaal zijn, behoeven hoogstwaarschijnlijk geen correctie. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
4. BesluitHet bovenstaande zal volstaan om de lezer een indruk te geven van de eigenschappen van flexibele categoriale systemen, en van het soort applicaties waartoe deze eigenschappen aanleiding geven. Wie zich op de hoogte wil houden van de ontwikkelingen op dit gebied verwijzen we graag naar de Categorial Grammar Newsletter voor algemene informatie, en de CELEX Newsletter voor specifieke toepassingen zoals die hierboven aan de orde zijn geweest. | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
[pagina 43]
| |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bibliografie
|
|