Nieuwe boeken
W. Daelemans, K. Sima'an, J. Veenstra en J. Zavrel, Computational Linguistics in the Nederlands 2000. Selected papers from the eleventh CLIN meeting. Rodopi, Amsterdam - New York, 2001, Pp. 204, (Language and Computers no 37.) ISBN: 90-420-1257-9 (gebonden), 90-420-1247-1 (paperback). Prijs: Euro 48,- (gebonden) en euro 23,- (paperback).
Dit boek is een selectie uit de lezingen die op de elfde CLIN-dag aan de KU Tilburg werden gehouden op 3 november 2000. Zoals de redactie reeds opmerkt in zijn voorwoord, wordt de CLIN-dag steeds meer een internationaal fenomeen, en het aandeel van niet-Benelux lezingen op die dag was bijna 50%. Een ander teken des tijds valt op te merken in de verwijzingen bij elk artikel: meer en meer vinden we urls in plaats van de gebruikelijke bibliografische verwijzingen. De bundel bestaat uit een keynote address van Gregory Grefenstette (Clairvoyance Corp., Pittsburgh) over ‘Very Large Lexicons’, gevolgd door de reguliere lezingen.
Grefenstette gaat in op enkele belangwekkende nieuwe ontwikkelingen, zoals de opkomst van het World Wide Web, dat middels zoekmachines als Altavista of Google gezien kan worden als een enorm groot en steeds groeiend corpus, en de beschikbaarheid van steeds grotere harde schijven. Samen maken deze ontwikkelingen het mogelijk om iets te maken dat nog niet bestaat, en dat Grefenstette aanduidt als ‘very large lexicon’, een lexicon gebaseerd op het Web, via abstractie en vereenvoudiging van de informatie die daar te vinden is. Dit moet een woordenboek worden dat niet alleen woorden met hun woordsoort en betekenis(sen) bevat, maar ook informatie geeft over hun relatieve frequentie, hun collocatiepatronen en afhankelijkheidsrelaties. Een dergelijk woordenboek kan nuttig zijn voor bijv. OCR (het automatisch omzetten van optische patronen in tekst), ter correctie van foutief geïnterpreteerde letters, automatische herkenning van spraak, e.d., maar ook voor automatisch vertalen. Ik veronderstel dat een dergelijk woordenboek voorlopig nog wel niet buiten de sturende hand van getrainde lexicografen zal kunnen, maar het staat buiten kijf dat veel van het vieze werk van de lexicograaf, zeg maar het kaartenbakkenwerk, tegenwoordig gemakkelijk kan worden geautomatiseerd, en feitelijk gebeurt dat ook al in ruime mate. Het Very Large Lexicon, dat een beetje lijkt op reeds bestaande lexicons zoals CELEX, maar dan gebaseerd op een corpus dat vele malen groter is, zal wel niet lang op zich laten wachten. Misschien zien de bedrijven die zoekmachines bouwen en onderhouden er brood in.
Julie Carson-Berndsen, Gina Joue en Michael Walsh van University College Dublin presenteerden ‘Phonotactic Constraint Ranking for Speech Recognition.’ Het model dat zij voorstellen blinkt overigens niet echt uit, met een percentage herkende lettergrepen van slechts 37%.
In ‘Through a glass darkly’ bespreekt het duo Lars Borin en Klas Prütz van de universiteit van Uppsala woordsoortdistributie in oorspronkelijke en vertaalde teksten, in het kader van een ‘attempt to move studies of translation effects into the syntactic arena.’ De auteurs hebben n-grammen van woordsoorttags in naar het Engels vertaalde Zweedse teksten vergeleken met het oorspronkelijke Zweeds en enkele standaardcorpora van het Engels. Hieruit bleek onder meer dan zinnen die beginnen met een voorzetsel frequenter zijn in uit het Zweeds vertaald Engels dan in gewoon Engels. De oorzaak hiervoor is de grotere mate van topicalisatie in het Zweeds. Hoewel het Engels zeker topicalisatie kent en toestaat, is de mate waarin dit gebeurt minder omvangrijk dan in talen als het Zweeds (of Nederlands). Juist in het overbenutten van een overigens