Contextboek

Terug naar Essays
Terug naar Nederlands
Home


Contextboek...

Woordenboek op basis van context

Er zijn mensen die bijv. naar een dialectendag gaan, zeggen dat het een mooie of zelfs leerzame dag was, zich omdraaien en doen wat ze altijd al deden. En is dat dan erg? In het geheel niet.
Er zijn ook mensen die bijv. naar een dialectendag 28-3-2009 gaan, een aantal punten (meestal in hun interessegebied) noteren of onthouden en daar later nog eens en/of nog eens een uurtje mee in den hangmat gaan liggen.

Digitalisering van amateurlexicografie > Taal-Context systemen, prof. dr. Jacques van Keymeulen (Universiteit van Gent).
Professor Keymeulen had een - in mijn ogen - raar en onsamenhangend verhaal over verzamelingen amateur woordenboeken en de geografische samenhang van woorden. Hierbij werd weliswaar de loop van de tijd tevens in beeld gebracht met het ontstaan van amateurwoordenboeken maar het ontgaat mij totaal om - bijna - lyrisch te kunnen doen over de vaststelling dat in de provincie Limburg veel meer woordenboeken (52) zijn gemaakt dan in bijv. de provincie Groningen (0) in de tijdspanne van 1835 tot en met 2005. Naar aanleiding van vragen uit het publiek moest Keymeulen toegeven dat het overzicht niet volledig was. Tja, wat wil je dan eigenlijk vertellen, want nauwkeurigheid en volledigheid zijn toch juist het verschil tussen de amateur en de wetenschap, lijkt mij. Het hoe en wat over de digitalisering van amateurwoordenboeken kwam slechts zijdelings ter sprake, de heer Keymeulen sprak vooral gewoon over mogelijke samenstellen van woordenboeken in lemma en betekenissen.

Hoe dan ook, zijn verhaal leverde mij als taalamateur en computergoochelaar toch wel wat ideen op, bijv. het groeperen van trefwoorden naar context: het woord 'auto' niet (alleen) te zoeken onder de beginletter 'a' maar kunnen zoeken onder 'vervoer', 'transport', 'vertegenwoordiger' of 'mobiliteit' etc.

Context-lemma's...

Het moet mogelijk zijn om vanuit boeken en andere samenhangende teksten, ieder woord onder te brengen in hun respectieve samenhang met alle andere woorden in een zin. Als je een waarde per woord en per samenhang toekent kun je wellicht een systeem (computerprogramma) bouwen dat zelf zinnen samensteld aan de hand van een eerste in te geven woord. Dus geen woorden in een arbitrair geselekteerde maar in een werkelijke (eerder voorgekomen) context plaatsen. Het lijkt me - op voorhand reeds - van belang of een woord altijd, soms, vaak, meestal, vr of n een ander woord verschijnt. Interessant!? Laat ik eens beginnen met wat vingeroefeningen...

Eerste zin: Omdat het al laat was geworden gingen we toen maar naar huis.
'omdat' in samenhang met 'het' en vr 'het'; sleutelwoord 'omdat' en 'het' en 'omdat-het'.
'omdat' komt voor in samenhang met 'al', met 'laat', enz., telkens 1 punt extra.
'het' komt net als 'omdat' in de zelfde samenhangen voor, staat na 'omdat' en voor 'al'; sleutels: 'het' en 'omdat-het' en 'het-al'.

Tweede zin: Jan laat de auto staan maar gaat op zijn fiets naar huis.
De volgende woorden komen in de eerste en in de tweede zin voor: laat, maar, naar en huis.
'laat' betekent hier heel iets anders dan het 'laat' in de eerste zin en 'naar huis' komt in precies de zelfde samenhang voor.

Als we aan ieder woord en aan hun samenhang een waarde kunnen toekennen en optellen kunnen we een (grote mate van) waarschijnlijkheid van voorkomen berekenen. Ook interessant voor justitieel recherche- en ander voorspellingswerk..?

Model-analyse (vastleggen)...
Lees zinnen uit samenhangende teksten.
Leg ieder los woord uit de zin vast (woordenboek).
Leg ieder woord vast met de samenhang naar ieder woord in de gegeven zin (contextboek).
Indien een woord in verschillende zinnen voorkomt krijgt het telkens 1 punt extra.
Indien een woord in een samenhang in verschillende zinnen voorkomt krijgt de samenhang 1 punt extra. Er zijn 3 mogelijke samenhangen, t.w. los woord (1:1), woord en anders (1:n) en anders en woord (n:1).

Model-analyse (opvragen)...
Geef een woord en geef aan of dit een eerste/tweede/derde/enz. woord in een zin betreft.
In een database met uitsluitend de twee voorbeeldzinnen zullen die beide zinnen op precies de zelfde wijze gereconstrueerd kunnen gaan worden. Een soort anagram van woorden i.p.v. letters.

Op basis van de volledige tekst van het Nieuwe Testament kun je het systeem vragen: Waar ging Jezus de meeste (aantal) keren naartoe? (Geef zinnen met de meeste keren de samenhang 'Jezus' en ???.) Het antwoord is wellicht: Jeruzalem (aanname) omdat die samenhang het meest voorkomt. Jezus ging ook wel naar een zieke, naar het meer, naar z'n moeder, naar Getsemane, naar ..., enz. maar het woord 'Jezus' komt in n zin het meest voor in samenhang met het woord 'Jeruzalem' (na het woord Jezus).


Piet/er Bult