| |
Aan een half woord genoeg?
De taalgevoeligheid van zoekmachines
Theo Stielstra
Zonder zoekmachines was het internet een ondoordringbaar woud. Maar dan nóg gaapt er vaak een kloof tussen zoeken en vinden. Daarom gaan de modernste zoekmachines een stapje verder: ze proberen de gebruiker werkelijk te begrijpen. Hoe gaat dat in z'n werk? Kan zo'n machine menselijke taal wel snappen? En om welke menselijke taal gaat het dan in de praktijk? Een overzicht van de jongste ontwikkelingen.
Wie op internet iets wil opzoeken, maar niet weet waar hij het kan vinden, zal een zoekmachine gebruiken, zoals Google, Ilse of AltaVista. De werking ervan is simpel. Je tikt een woord in, en binnen een mum van tijd zie je een lijst met webpagina's op die het gezochte woord bevatten. Deze zoeksystemen bestrijken miljoenen pagina's, en ze worden bijna met de dag geavanceerder. Zoeken op internet wordt dus steeds makkelijker, maar daadwerkelijk iets vinden blijkt soms nog een hele kunst. Daar zijn verschillende redenen voor.
| |
| |
| |
Onstuimige groei
Om te beginnen groeit het internet zo onstuimig dat het voor de zoekmachines niet bij te houden is. Schattingen van het aantal webpagina's gaan uit van een totaal van ruim 1,5 miljard, maar als alle achterliggende informatie die via die webpagina's bereikbaar is ook wordt meegerekend, zou het weleens om zo'n slordige 500 miljard pagina's kunnen gaan. En dat aantal stijgt gestaag.
Ten tweede is het bij zo veel informatie zaak om de zoekvraag juist te formuleren. Wie op internet een hotelletje in de buurt van het Museumplein in Amsterdam zoekt, zal dat niet snel vinden als hij de zoekmachine alleen op Amsterdam laat zoeken. Maar als hij de zoektermen hotel en Museumplein toevoegt, wordt de kans op succes al een flink stuk groter. Nu zal het niet altijd even eenvoudig zijn om een zoekopdracht met een combinatie van enkele zoektermen te formuleren; de huidige generatie zoekmachines probeert de gebruiker daar dan ook bij te helpen door de vraag te interpreteren. Maar hoe kan zo'n zoekmachine begrijpen wat de gebruiker bedoelt? En als hij al iets kan met menselijke taal, welke taal is dat dan?
| |
Nederlands op internet
Twee derde van alle webpagina's is in het Engels, en daarmee is deze taal de voertaal op het web. Nu het internet geschikt wordt gemaakt voor andere schriftsoorten dan het westerse alfabet, zal deze dominantie naar verwachting de komende jaren sterk afnemen - maar een grotere rol voor het Nederlands is evengoed niet te verwachten. Zoekmachines die gebruikmaken van taaltechniek, worden vrijwel altijd eerst voor het Engels ontwikkeld, en vervolgens voor het Spaans, Frans, Duits, enzovoort. Pas veel later volgen het Nederlands en de tientallen andere ‘kleine’ talen.
Goed, één concessie willen de meeste zoeksites nog wel doen: gebruikers die alleen resultaten willen zien die in het Nederlands zijn geschreven, kunnen daarvoor kiezen. Alle zoekresultaten worden dan gefilterd op basis van een korte lijst met voor het Nederlands kenmerkende woorden, waarna alleen de Nederlandstalige webpagina's in het Nederlands getoond worden.
Er zijn ook zoekmachines die hun website inclusief enkele toelichtende pagina's in zo veel mogelijk talen aanbieden. De Amerikaanse zoeksite Google (www.google.com) gaat hierin het verst. Met hulp van een legertje vrijwilligers is de site vertaald in liefst 66 talen, waaronder het Nederlands, Maleis, Fries, Esperanto, potjeslatijn en niet te vergeten: het ‘Bork, bork, bork’, het nep-Engels van de Zweedse kok uit The Muppet Show. Maar deze interfaces zijn niet meer dan dunne schillen; wie verder graaft, treft doorgaans weer alleen het Engels aan.
| |
Geheim recept
De eerste generatie zoekmachines hield zich overigens helemaal niet bezig met taalkwesties. Dat was ook niet nodig, want zoeken en vinden waren in de beginjaren van het web nog praktisch synoniem. Een ingegeven woord werd vergeleken met een geïndexeerde lijst van alle woorden die de zoekmachine op diens speurtochten op het web was tegengekomen. Hoe vaker het gezochte woord op een bepaalde pagina voorkwam, hoe belangrijker die pagina geacht werd te zijn. Zo'n pagina werd dan boven aan de lijst van zoekresultaten geplaatst. AltaVista (www.altavista.com) was bij zijn verschijning in 1995 zo'n eenvoudige zoekmachine.
Ook de tweede generatie zoekmachines werkte in wezen niet anders. De verbeteringen betroffen vooral het gedeelte van de zoekmachine waarin de rangschikking van de zoekresultaten tot stand komt. Om te voorkomen dat webpagina's waarin een bepaald woord honderd keer voorkomt altijd boven aan de lijst zouden eindigden, werd ook de positie van een bepaalde webpagina binnen het gehele netwerk meegewogen. Hoe vaker er op het web naar een bepaalde pagina wordt verwezen, hoe zwaarder de wegingsfactor werd. Het idee hierachter was dat het aantal links naar een bepaalde webpagina groter zou zijn naarmate de geboden informatie interessanter was, of belangrijker. Een voorbeeld van een van de eerste zoekmachines die op deze manier werkten, is Google. Intussen gebruiken de meeste grotere zoekmachines ook een dergelijke rangschikking. Maar hoe de weging verder precies in haar werk gaat, is even geheim als het recept voor Coca-Cola. De ingrediënten zijn weliswaar bekend, maar de combinatie ervan vormt het geheim van de smid.
| |
Interpretatie
Pas bij de huidige, derde generatie zoekmachines is taal een grotere rol gaan spelen. En dat is ondertussen wel nodig ook. Het aantal mogelijke antwoorden op zoekvragen is groter dan ooit, maar toch gebruikt zeventig tot tachtig procent van de zoekers op internet nog steeds hardnekkig één zoekterm. Als iemand ‘automaat’ intikt, is hij dan op zoek naar nieuwe of tweedehandsauto's? Of naar een kauwgomballenautomaat, of naar een flipperkast? De jongste generatie zoekmachines poogt daarom de ‘domme’ gebruiker te helpen. Door de gevonden antwoorden te groeperen, en door de relaties aan te geven tussen het gezochte woord en termen die ermee te maken hebben.
Een fraai voorbeeld van een techniek waarmee gebruikers worden geholpen, is de groepering in concepten. Zoekmachines als Vivísimo(www.vivisimo.com) en Northern Light (www.northernlight.com) hebben hier ieder een eigen methode voor. Wie een woord als apple ingeeft, krijgt de resultaten verdeeld over mapjes: computers en fruit. Wie bond probeert, krijgt de resultaten verdeeld over mapjes over James Bond en over allerlei financiële producten. Hoewel de resultaten indrukwekkend nauwkeurig zijn, zelfs bij het zoeken naar Nederlandse woorden (vooral bij Vivísimo), speelt taal hierbij een ondergeschikte rol. De zoekvragen worden nauwelijks taalkundig ontleed. Wel test Vivísimo eerst de (vermoedelijke) taal en zoekt dan ook naar meervoudsvormen, maar het ontwikkelen van concepten gebeurt op een puur wiskundige basis, met een gepatenteerd algoritme.
| |
Natuurlijke taal
Heel anders werkt het kleine Oingo (www.oingo.com). Deze zoeksite is bedoeld als etalage voor de zoektechniek van de firma Applied Semantics, waar
| |
| |
zoekopdrachten juist wel op basis van taal worden ontrafeld. Oingo werkt alleen in het Engels, wat ook blijkt wanneer er gezocht wordt naar Nederlandse woorden: dan bakt hij er niets van. Maar bij het intikken van Engelstalige begrippen is de machine echt in zijn element. Probeer eens apple en de gebruiker kan plots kiezen uit: fruit, boomgaarden, de plaats in Oklahoma met die naam en natuurlijk de gelijknamige computerfabrikant. Het uiteenrafelen van zoekvragen op basis van taalregels, een thesaurus en ervaringen van eerdere gebruikers is natuurlijk veel ingewikkelder, maar de kwaliteit van de antwoorden is dan ook hoger.
Dat merken ook de duizenden gebruikers van de vragenmachine die verborgen zit achter de website van de Postbank. De techniek erachter is ontwikkeld door Q-Go, een van de zeldzame bedrijven die zich richten op zoeken in het Nederlands. De zoektechniek van Q-Go reageert op natuurlijke taal, oftewel zoekvragen in gewone woorden, zoals ‘Wat zijn de openingstijden van het Rijksmuseum?’ De grootste problemen waarmee zo'n zoektechniek te maken krijgt, worden veroorzaakt door de rijkdom en de eigenaardigheden van de menselijke taal. Q-Go, dat ook een zoekmachine heeft op de site van internetprovider Freeler (www.freeler.nl), gaat die problemen te lijf met een combinatie van taaltechniek - waarbij woorden, woordverbanden, de zinsconstructie en dergelijke een rol spelen - en een menselijke inbreng, waarbij redacteuren veelgestelde vragen van een antwoord pogen te voorzien.
| |
Ontsporingen
Bij Freeler is te zien dat die combinatie van menselijke en taaltechnische inspanningen nog niet perfect werkt. De vraag ‘Wie biedt de hoogste spaarrente?’ levert inderdaad nuttige informatie op, kennelijk gebaseerd op een menselijke ingreep, maar de machine probeert de gebruiker ook verder te helpen met zoeksuggesties als ‘Waar vind ik informatie over de hoogste berg in Afrika, de Kilimanjaro?’ en ‘Waar vind ik het Guinness Book of Records?’ Deze uiteenlopende vragen worden waarschijnlijk opgeroepen door het woord hoogste.
En zo gaat het wel vaker mis. Als je Q-Go vraagt naar de plaatselijke tijd in Moskou (‘Hoe laat is het nu in Moskou?’) wordt de vraag nog uiteengeplozen tot allerlei gerelateerde vragen over Moskou en het toerisme in de Russische hoofdstad - niet heel erg verwonderlijk - maar bij dezelfde vraag over Berlijn ontspoort de zoekmachine en biedt hij aan te zoeken naar informatie over koning Arthur en informatie over het housefestival Dance Valley. Joost mag weten waar deze kronkels vandaan zijn gekomen, en pas wanneer de vraag wordt geherformuleerd in: ‘Welke tijd is het nu in Berlijn?’ duikt behalve ‘Dance Valley’ en ‘koning Arthur’ ook een koppeling naar een ‘universele wereldklok’ op. Een koppeling die doodloopt overigens.
Met dit soort miscommunicatie zullen de gebruikers van de Postbank-zoekmachine minder snel geconfronteerd worden. Deze ‘natuurlijke taal’-machine is op zijn best wanneer er vragen binnen een beperkt domein worden gesteld. Het aantal betekenissen van bepaalde woorden is dan kleiner, en het aantal mogelijke vragen overzichtelijker. Zo komen er behoorlijk adequate reacties op vragen naar hoogste rentes, hypotheekvormen en locaties van pinautomaten. Sterker nog, deze zoekmachine heeft aan een half woord genoeg. De onaffe vraag ‘Hoe verhoog ik?’ vult hij prima aan (‘Hoe kan ik de bestedingsruimte van mijn creditcard verhogen?’). En wanneer een klant alleen maar ‘Hoe verlaag ik mijn?’ heeft ingetikt, neemt de zoekmachine aan dat er ‘Hoe kan ik de maandlast van mijn hypotheek verlagen?’ bedoeld werd. En zo zien we het graag bij zoekmachines: een goed antwoord, nog voordat de vraag goed en wel gesteld is.
| |
Meest gebruikte talen op het web
Het Engels is nog de dominante taal op het wereldwijde web. Al zal deze positie snel worden aangetast, zo is de verwachting. Afhankelijk van de gekozen telmethode is het Nederlands een middenmoter. Niet eens zo slecht voor een taal met 21 miljoen sprekers, en daarmee een dertigste plaats op de wereldtaallijst.
Aantal webpagina's
Telling van het aantal webpagina's in een taal door FAST Search & Transfer (maker van Alltheweb.com).
1 |
Engels |
68 |
2 |
Japans |
6 |
3 |
Duits |
6 |
4 |
Chinees |
4 |
5 |
Frans |
3 |
6 |
Spaans |
2 |
7 |
Russisch |
2 |
8 |
Italiaans |
2 |
9 |
Portugees |
1 |
10 |
Koreaans |
1 |
11 |
Nederlands |
1 |
Bron: Vilaweb, juli 2000. Onder meer te vinden via www.cyberatlas.com. (http://cyberatlas.internet.com/big_picture/demographics/article/0,,5901_408521,00.html)
Aantal ‘sprekers’ on line
Welke taal wordt on line ‘gesproken’? Gemeten zijn het aantal inwoners met internettoegang, ingedeeld naar taalgroep.
1 |
Engels |
43 |
2 |
Chinees |
9,2 |
3 |
Japans |
9,2 |
4 |
Spaans |
6,7 |
5 |
Duits |
6,7 |
6 |
Koreaans |
4,4 |
7 |
Italiaans |
3,8 |
8 |
Frans |
3,3 |
9 |
Portugees |
2,5 |
10 |
Nederlands |
2,2 |
Bron: Global Reach, september 2001.
(http://www.glreach.com/globstats/)
|
|