Tabu. Jaargang 30
(2000)– [tijdschrift] Tabu– Auteursrechtelijk beschermd
[pagina 183]
| |||||||
Nieuwe boekenFrank van Eynde, Ineke Schuurman, en Ness Schelkens, Computional Linguistics in the Netherlands 1998. Selected Papers from the Ninth CLIN Meeting. Rodopi, Amsterdam - Atlanta, 2000. Pp. i-viii, 1-233. ISBN 90-420-0609-9. Prijs: fl. 40,- paperback; fl. 125,- gebonden.
Deze verzameling artikelen, een selectie van de lezingen die op de negende CLIN-dag in 1998 te Leuven werden gehouden, geeft een goed overzicht van de activiteiten op computationeel-taalkundig gebied in de lage landen (het woord ‘Netherlands’ uit de titel moet op deze wijze opgevat worden). De bundel is opgedeeld in drie secties: Statistical Methods, Syntax and Semantics, en Applications, in afnemende omvang. In de sectie over statistische methoden vindt men ‘Instance Families in Memory-Based Language Learning’ van Antal van den Bosch, gewijd aan een zuiver inductief model van automatische taalverwerving. Het bespreekt een algoritme dat het beroep op computergeheugen dat deze benadering doet moet verminderen. Het artikel ‘On the Arbitrariness of Lexical Categories’ van Gert Durieux, Walter Daelemans en Steven Gillis gaat eveneens over taalverwerving vanuit computationeel perspectief. Ook hier staat ‘memory-based learning’ centraal, waarbij een zeer royaal gebruik wordt gemaakt van opslag en de brute kracht van het opslaan van arbitraire informatie, en waarbij het minimaliseren van opslag ten bate van een maximale benutting van de redundantie in de taalgegevens door zoveel mogelijk regelmatigheden te extraheren naar de achtergrond wordt gedrongen. De auteurs onderzoeken de mate waarin hun model recht kan doen aan het leren van drie soorten problemen: (a) de verwerving van diminutiva (grotendeels voorspelbaar en regelmatig, met enkele bekende problemen), (b) de verwerving van klemtoon (deels regelmatig, maar met veel meer lexicale uitzonderingen), en (c) de verwerving van geslacht (goeddeels arbitrair, maar met enkele regelmatige deelpatronen bij gelede woorden). De auteurs claimen dat hun model tamelijk succesvol is voor het leren van de categorieën (a) en (b), hoewel een vergelijking met menselijk leergedrag feitelijk achterwege blijft. In hoeverre dit model een aantrekkelijke kandidaat is voor het modelleren van het menselijk vermogen om taalkundige regelmatigheden te leren uit het aanbod blijft een open vraag na lezing van dit artikel. In ‘An FGREP Investigation into Phonotactics’ van Peter Kleiweg en John Nerbonne wordt het weldadig effect besproken, dat een algoritme genaamd dispersie heeft op de mate waarin FGREP succesvol fonotactische regelmatigheden in gespeld Nederlands kan leren. Afkomstig uit dezelfde Groningse onderzoeksgroep is ‘Exploring Phonotactics with Simple Recurrent Networks’ van Ivelin Stoianov en John Nerbonne. Hier worden enkele connectionistische modellen vergeleken op hun merites voor fonotactische patroonherkenning. ‘Style Adaptation of Statistical Language Models’ van Dong Hoon van Uytsel, Patrick Wambacq en Dirk van Compernolle handelt over de vraag hoe statistische modellen van taalgedrag die getraind zijn op een bepaald type stijl aangepast kunnen worden voor een andere stijl. Een aantal kandidaten worden vergeleken. Overigens is de notie stijl die hier gehanteerd wordt tamelijk beperkt: part-of-speech n-grammen. ‘Memory-Based Word Sense Disambiguation. Optimising Word Disambiguation experts for SENSEVAL’ van Jorn Veenstra, Antal van den Bosch, Sabine Buchholz, | |||||||
[pagina 184]
| |||||||
Walter Daelemans en Jakub Zavrel gaat over het klassieke computationele probleem van het vaststellen welk van de mogelijke woordbetekenissen de beoogde is in een gegeven tekstvoorkomen. Opnieuw staat memory-based learning centraal. Heel andere koek wordt er geserveerd in de afdeling Syntax and Semantics. In Simon van Dreumel's ‘The AMAZON Grammar and the Last Part of the Middle Field’ wordt voortgebouwd op Rijpma, Schuringa en Van Bakel, en de klassieke ‘veldentheorie’ van de Nederlandse woordvolgorde. Het doel is hier een onderscheid te motiveren tussen elementen die het middenveld afsluiten (postposities en predikaten) en elementen die het middenveld opvullen, maar niet afsluiten. Tevens wordt een onderscheid aangebracht tussen verbale en andere predikaten. Postposities bij R-woorden en predikaten worden onderscheiden van partikels bij partikelwerkwoorden en andere onderdelen van de verbale eindgroep. In hoeverre een dergelijk onderscheid steeds te maken is op de manier die hier wordt voorgesteld is overigens zeer de vraag. Zo wordt in omdat hij daar niet in begraven ligt zowel in als begraven gerekend tot de rechterkant van het middenveld, en niet tot de verbale eindgroep. Niettemin lijkt plaatsing in de eindgroep voor begraven wel mogelijk, getuige omdat hij daar niet in heeft begraven gelegen, waarvan de woordvolgorde misschien niet ieders voorkeur zal hebben, maar toch zeker binnen de mogelijkheden van onze taal ligt, in scherp contrast bijvoorbeeld tot *omdat hij daar niet in heeft gelegen begraven. (Overigens zullen de trouwe lezers van dit blad zich ongetwijfeld herinneren dat ik dit punt ook al eens heb aangeroerd in Hoeksema 1981, zie voorbeeld (6) aldaar.) Overigens ontbreekt in de referenties Kathol (1995) over de veldentheorie in HPSG, hoewel dit zeker nauw verwant is aan de AMAZON-benadering. Daarentegen wordt dit werk weer wel genoemd in Anna Kupść artikel ‘Position of Polish Clitics: an HPSG approach.’ Het lijkt erop dat ook in de computationele taalkunde schoolvorming belangrijker is dan inhoudelijke overeenkomsten in de citatiepraktijk. John Nerbonne en Tony Mullen werpen zich op ‘Null-Headed Nominals in German and English,’ een onderwerp waaraan Nerbonne wel vaker heeft gewerkt. Het gaat in dit artikel om constructies als the Good, the Bad and the Ugly, of To each his own die opmerkelijk zijn wegens het ontbreken van een zelfstandig naamwoord na de adjectieven. De analyse gaat uit van de mogelijkheid dat sommige determinatoren/ adjectieven zich laten combineren met lege nominale hoofden. To each [e] his own [e]. Carla Schelfhout, ‘Corpus-Based Analysis of Parenthetical Reporting Clauses’, gaat over de status van zinnen in de directe rede in constructies als ‘Al weer mislukt!’ bromde het ventje. De gegeven analyse is dat de aanhaling in aanloop staat, en een relatie onderhoudt met een al dan niet verzwegen voorkomen van zo, dat dient als hervattend element in de eerste zinsplek, ruwweg vergelijkbaar met de d-woorden in dislocatieconstructies als Jan die was er ook (zie o.a. mijn artikel over de Feit is dat-constructie in dit nummer). In hoeverre een corpus nodig is om deze conclusies te kunnen trekken, blijft overigens ook na lezing van dit artikel tamelijk duister. Zoals Schelfhout ook zelf opmerkt, blijven diverse aspecten van directe rede-constructies nog in nevelen gehuld, zoals de status van niet-geïnverteerde matrixzinnen: Jan brulde: ‘Wegwezen!’. Ook zou ik wel iets meer willen vernemen over zinnen als ‘Mijnheer van Veen!’ brak mevrouw Ovens de stilte af (afkomstig uit E.J. Potgieter's novelle De Zusters), die weliswaar vanaf de 19de eeuw steeds vaker optreden in Nederlandstalig proza, maar mijns inziens steeds een eigenaardige status hebben behouden. Het komt me voor dat dergelijke zinnen absoluut niet mogelijk zijn in gewone spreektaal. Ook hebben ze nooit een niet-geïnverteerde tegenhanger. | |||||||
[pagina 185]
| |||||||
Na de fonologisch lege hoofden van Nerbonne en Mullen richt Frank van Eynde in ‘Figure Heads in HPSG’ zich op semantisch lege hoofden: woorden die geen enkele lexicale bijdrage lijken te leveren zoals zijn, en wat ze beduiden voor de behandeling van functie-argument relaties in HPSG. Hiermee sluit het gedeelte over syntaxis en semantiek af en komen we bij de laatste en kleinste onderafdeling: Applications. Gosse Bouma presenteert in ‘A Modern Computational Linguistics Course using Dutch’ een alternatief voor bestaande Engelstalige inleidingen in de computationele taalkunde. Als kenmerkende eigenschap van zijn benadering noemt hij de grotere gerichtheid op realistische taalkundige problemen en een geringere aandacht voor basale implementatiekwesties. Een van de oefeningen die hij beschrijft is het automatisch opsplitsen van woorden in lettergrepen (een taak die ik me nog kan herinneren van mijn eigen eerste stappen op computergebied tijdens een cursus Pascal voor Alfa's, in het lang-vervlogen tijdperk van de ponskaart). Een tweede oefening behelst het genereren van verleden tijden middels het kofschip. Allengs klimt dan de complexiteit op via minigrammatica's voor delen van de Nederlandse syntaxis naar taken als automatisch beantwoorden van vragen en tekstgeneratie. Pim van der Eijk en Dennis Janssen (Cap Gemini) leveren de enige bijdrage vanuit het bedrijfsleven aan deze bundel, in een artikel getiteld ‘XML Mixed Content Grammars.’ Vermoedelijk zullen volgende CLIN-bundels nog wel meer bijdragen bevatten over XML en machinale verwerking van teksten, een onderwerp dat door de opkomst van Internet, maar niet alleen daardoor, steeds belangrijker wordt. Het laatste artikel tenslotte, ‘Evaluation of the NLP Components of the OVIS 2 Spoken Dialogue System’ van Gert Veldhuijzen van Zanten, Gosse Bouma, Khalil Sima'an, Gertjan van Noord en Remko Bonnema, vergelijkt een op regels gebaseerd natuurlijke-taalsysteem uit Groningen met een memory-based stochastisch systeem uit Amsterdam. Het regelgestuurde systeem bleek duidelijk superieur aan het alternatief in termen van snelheid en accuraatheid. Samenvattend: deze bundel geeft een momentopname van de activiteiten in Nederland en België. Opvallend is de grote belangstelling voor statistische methoden en inductief leren. Het komt mij zelfs voor dat deze belangstelling op het moment wellicht te groot is. Mogelijk vormt het laatste artikel van de bundel aanleiding om het wat kalmer aan te doen met deze methodiek, en hem alleen van stal te halen waar er echt winst te bespeuren valt.
Jack Hoeksema | |||||||
Bibliografie
| |||||||
[pagina 186]
| |||||||
Jo Daan, Geschiedenis van de dialectgeografie in het Nederlandse taalgebied. Rondom Kloeke en het Dialectenbureau. Koninklijke Nederlandse Akademie van Wetenschappen, Amsterdam, 2000. ISBN 90-6984-289-0. Prijs: fl. 25, -. Verkrijgbaar bij de erkende boekhandel of bij Edita KNAW, Postbus 19121, 1000 GC Amsterdam.
Onder het motto Herinnering is feit en fictie tegelijk heeft Jo Daan haar herinneringen aan de activiteiten op de afdeling dialectologie van wat nu het Meertens Instituut heet te boek gesteld. Hoewel het boek een weidsere titel draagt ligt toch heel duidelijk de nadruk op de geschiedenis en beslommeringen van het dialectenbureau.Ga naar eind1 Jo Daan is in taalkundig Nederland een bekende naam, maar voor de buitenwacht is ze beter bekend als Dé Haan, de pittige dame die met name in de begindelen van Het Bureau van J.J. Voskuil af en toe opduikt. Her en der in het boek deelt ze een kleine kat uit naar de door haar allerminst geapprecieerde Voskuil (bijvoorbeeld op blz. 74: ‘Ook al voordat Voskuil aangesteld was vormde het personeel een wat vreemde groep’), maar ook anderen (P.J. Meertens, Jac. van Ginneken, Max Pam) krijgen een (zo te zien verdiende) veeg uit de pan. Overigens gaat het boek maar zeer ten dele over de periode die Voskuil beschrijft, maar vooral en vooreerst over de totstandkoming van het dialectenbureau en de constellatie van het dialectgeografisch onderzoek in de periode voor, tijdens en kort na de Tweede Wereldoorlog. Het relaas is niet alleen op herinneringen gebaseerd, maar tevens op geschreven en gedrukte bronnen. Daarmee vult het een lacune op het gebied van de geschiedschrijving van de Nederlandse taalkunde. Daan's boek is in een levendige stijl geschreven, en richt zich duidelijk op een taalkundig publiek. Het is opgesmukt met tal van foto's, zodat de lezer die wel eens zou willen weten hoe P.J. Meertens (‘meneer Beerta’ van Het Bureau) er uitzag, of G.G. Kloeke, of J. van Ginneken, hier aan zijn trekken kan komen. Voor diegenen die zich graag beklagen over de geringe maatschappelijke status van wetenschappelijk onderzoek vandaag de dag en de salariskloof die er gaapt tussen de publieke sector, waar zich nog vrijwel al het taalkundige werk afspeelt, en het bedrijfsleven, is het goed zich te realiseren dat de situatie voor de oorlog nog veel dramatischer was. Jo Daan verdiende destijds, voor een aanstelling van 0,5 fte, het bedrag van fl 25, - per maand. Dat is ongeveer wat een ongeschoolde dagloner verdiende. Het Meertens Instituut is begonnen op een slof en een oude voetbalschoen, met de aanstelling van P.J. Meertens en een subsidie van fl 2500,- per jaar, in het jaar 1930. Dat het niet meer was, schrijft Daan toe aan de invloed van Van Ginneken, die niet wenste dat zijn rivaal Kloeke leiding zou gaan geven aan het dialectenbureau. Door de subsidie laag te houden kon alleen een junioronderzoeker bekostigd worden, en dat werd P.J. Meertens. Meertens was van huis uit geen dialectoloog. Zijn interesse ging eerder uit naar literatuur en literatuurgeschiedenis, volkskunde, en ‘het sociale vraagstuk.’ Ook had hij meer bestuurlijke dan wetenschappelijke ambities. Na een moeizame start begon het bureau langzaam maar zeker te groeien in omvang en belang. Hierbij kreeg het bureau een extra duw in de rug door de Duitse bezetting, die althans voor het bureau niet slecht uitpakte. Met name volkskunde profiteerde van toenemende fondsen, maar ook dialectologie. Bij dialectologie was het werk vooral gericht op vragenlijsten en het doel was het maken van een dialectatlas. Gelukkig konden de mensen van het bureau daarbij gebruik maken van de expertise van Kloeke, die als hoogleraar in Leiden was aangesteld. Wat overigens precies de wetenschappelijke kern van de twist tussen Kloeke en Van Ginneken was, blijft me ook na lezing van dit boek een beetje duister. | |||||||
[pagina 187]
| |||||||
Daan betoogt dat Van Ginneken geen nauwkeurige dataverzamelaar was, in tegenstelling tot Kloeke, maar waarom Van Ginneken Kloeke's boek over de Hollandse expansie een ‘betreurenswaardige afgrond van vermetele dwalingen en onmethodische willekeur’ achtte, legt ze niet uit. Ze houdt het op vrees voor concurrentie en territoriumdrift, factoren die natuurlijk nooit uit te vlakken zijn ook bij de meest ‘zuiver-academische’ controverses. Daarnaast noemt Daan ook nog dat Kloeke zich vooral op Duitsland en de Duitse dialectgeografie oriënteerde, terwijl Van Ginneken meer voelde voor de Franse school. Daan toont zich nogal sceptisch over de waarde van vragenlijsten en de daarop gebaseerde kaarten. Zij voelde en voelt meer voor veldwerk ter plaatse en nauwkeurige transcriptie van bandopnamen. We zien hier de oude tegenstelling tussen breedte en diepte, die ook de huidige taalkunde niet vreemd is. Daan's wantrouwen tegen de vragenlijsten lijkt sterk op het wantrouwen van iemand als Labov tegen taalintuities. In beide gevallen ben je overgeleverd aan de oordelen van mogelijk niet al te beste observatoren en verdwijnt sociale variatie bijna steevast onder het tapijt, vooral als er per plaats slechts een enkele informant ter beschikking staat. Daar staat dan weer tegenover dat je veel sneller een globaal beeld krijgt door vragenlijsten of informantenoordelen dan met de nauwkeurige waarneming van taalgedrag. Uiteindelijk is een combinatie van diverse methoden het beste: globaal onderzoek kan aangeven waar meer gedetailleerd onderzoek nuttig kan zijn, terwijl omgekeerd gedetailleerde studie van taalgebruik variabelen aan het licht kan brengen die zich lenen voor een breder onderzoek. Maar goed, het is natuurlijk gemakkelijk voor mij als outsider op het terrein van de dialectgeografie om een dergelijke irenische opvatting erop na te houden. Daan voelde zich nogal gefrustreerd in haar pogingen om meer fonetisch gericht onderzoek te entameren aan het dialectenbureau door de behoudende inslag van Meertens. Ze is zeer sceptisch over de waarde van hetgeen er onder Meertens is verricht: ‘Het is te betwijfelen of het vele verzamelde materiaal ooit de diensten zal kunnen doen, waarvoor het verzameld was.’ In dit opzicht lijkt ze zo mogelijk haast even sceptisch over het nut van alles wat er aan het bureau gebeurde als Voskuil in zijn Bureau. Of die scepsis al dan niet terecht is, zal nog moeten blijken, als de bestanden van het Meertens Instituut in gedigitaliseerde vorm ontsloten worden. Wellicht dat er dan een ruimer gebruik zal ontstaan van het vele materiaal. Dat er volop klaar ligt voor nadere taalkundige exploratie is overigens afdoende aangetoond door Eric Hoekstra in een serie artikelen voor dit blad. Soms kan ook door toeval materiaal verzameld zijn dat zich leent voor een heel andere vraagstelling dan de oorspronkelijke samenstellers van de vragenlijst voor ogen hadden. Pas na koppeling van alle bestaande informatiebestanden, inclusief die van buiten het Meertens Instituut, zoals de RND, zal het mogelijk zijn om het onderste uit de kan te halen. In de geneeskunde is het al lange tijd gewoon om tal van onderzoeken met matige of tegenstrijdige uitkomsten te combineren in een meta-onderzoek dat veel scherpere conclusies mogelijk maakt. Wellicht komt die tijd ook nog eens voor de dialectstudie.
Jack Hoeksema |
|