Betekeniswolken
Een nieuwe methode om een analyse van de betekenis van een tekst te maken is de ‘latente semantische analyse’ (LSA), die ontwikkeld is door Thomas Landauer van de University of Colorado in Boulder (in samenwerking met Susan Dumais, die inmiddels bij Microsoft werkt). Het uitgangspunt van deze methode is dat de betekenis van een woord bepaald wordt door naburige woorden: woorden die vaak in de omgeving van dat woord voorkomen.
Het LSA-programma verwerkt een tekstcorpus (een verzameling teksten) dat bestaat uit vele miljoenen woorden, en zet de woorden uit in een zogeheten wiskundige ruimte, waarin woorden die in betekenis verwant zijn dicht bij elkaar komen te staan, terwijl niet-verwante woorden ver van elkaar staan. Staan bijvoorbeeld de woorden natuur en bos in veel teksten dicht bij het woord gezondheid, dan wordt ook hun onderlinge afstand in de wiskundige ruimte klein. Staan in andere teksten natuur en bos dicht bij Greenpeace, dan is op dezelfde manier ook de afstand tussen natuur, bos en Greenpeace klein. Maar op die manier is er ook een verborgen verband tussen Greenpeace en gezondheid ontstaan. Zo worden een soort betekeniswolken gevormd, clusters van woorden in een abstracte ruimte die verwante betekenissen hebben of die gemakkelijk met elkaar geassocieerd worden.
Omdat niet alle woorden die naast elkaar in een tekst staan qua betekenis verwant zijn, en omgekeerd niet alle betekenisverwante woorden altijd dicht bij elkaar staan, moeten nog wel de toevalligheden uit de wiskundige ruimte verwijderd worden. Dat gebeurt door het ‘indikken’ van de betekeniswolken. Om bij het Greenpeace-voorbeeld te blijven: woorden die nauw met Greenpeace geassocieerd zijn, maar niet in de tekst voorkomen, zijn natuur, actiegroep en dergelijke, terwijl woorden als Beieren en verstoord toevallig in deze tekst wel dicht bij Greenpeace staan maar er wat betekenis betreft weinig mee te maken hebben. Om dit soort toevallige buurwoorden te verwijderen, worden weinig voorkomende associaties verwijderd, via een ingewikkelde wiskundige operatie. Ieder woord in het corpus van miljoenen woorden is nu identificeerbaar door de coördinaten van het woord in de ruimte. Woorden die verwant zijn, hebben verwante coördinaten.