Contextboek
Terug naar Essays
Terug naar Nederlands
Home
Contextboek...
Woordenboek op basis van context
Er zijn mensen die bijv. naar een dialectendag gaan, zeggen dat het een
mooie of zelfs leerzame dag was, zich omdraaien en doen wat ze altijd
al deden. En is dat dan erg? In het geheel niet.
Er zijn ook mensen die bijv. naar een dialectendag 28-3-2009 gaan, een
aantal punten (meestal in hun interessegebied) noteren of onthouden en
daar later nog eens en/of nog eens een uurtje mee in den hangmat gaan
liggen.
Digitalisering van amateurlexicografie > Taal-Context systemen, prof. dr. Jacques van Keymeulen (Universiteit van Gent).
Professor Keymeulen had een - in mijn ogen - raar en onsamenhangend
verhaal over verzamelingen amateur woordenboeken en de geografische
samenhang van woorden. Hierbij werd weliswaar de loop van de tijd
tevens in beeld gebracht met het ontstaan van amateurwoordenboeken maar
het ontgaat mij totaal om - bijna - lyrisch te kunnen doen over de
vaststelling dat in de provincie Limburg veel meer woordenboeken (52)
zijn gemaakt dan in bijv. de provincie Groningen (0) in de tijdspanne
van 1835 tot en met 2005. Naar aanleiding van vragen uit het publiek
moest Keymeulen toegeven dat het overzicht niet volledig was. Tja, wat
wil je dan eigenlijk vertellen, want nauwkeurigheid en volledigheid
zijn toch juist het verschil tussen de amateur en de wetenschap, lijkt
mij. Het hoe en wat over de digitalisering van amateurwoordenboeken
kwam slechts zijdelings ter sprake, de heer Keymeulen sprak vooral
gewoon over mogelijke samenstellen van woordenboeken in lemma en
betekenissen.
Hoe dan ook, zijn verhaal leverde mij als taalamateur en
computergoochelaar toch wel wat ideëen op, bijv. het groeperen van
trefwoorden naar context: het woord 'auto' niet (alleen) te zoeken
onder de beginletter 'a' maar kunnen zoeken onder 'vervoer',
'transport', 'vertegenwoordiger' of 'mobiliteit' etc.
Context-lemma's...
Het moet mogelijk zijn om vanuit boeken en andere samenhangende
teksten, ieder woord onder te brengen in hun respectieve samenhang met
alle andere woorden in een zin. Als je een waarde per woord en per
samenhang toekent kun je wellicht een systeem (computerprogramma)
bouwen dat zelf zinnen samensteld aan de hand van een eerste in te
geven woord. Dus geen woorden in een arbitrair geselekteerde maar in
een werkelijke (eerder voorgekomen) context plaatsen. Het lijkt me - op
voorhand reeds - van belang of een woord altijd, soms, vaak, meestal,
vóór of ná een ander woord verschijnt. Interessant!? Laat ik eens beginnen
met wat vingeroefeningen...
Eerste zin: Omdat het al laat was geworden gingen we toen maar naar huis.
'omdat' in samenhang met 'het' en vóór 'het'; sleutelwoord 'omdat' en 'het' en 'omdat-het'.
'omdat' komt voor in samenhang met 'al', met 'laat', enz., telkens 1 punt extra.
'het' komt net als 'omdat' in de zelfde samenhangen voor, staat na
'omdat' en voor 'al'; sleutels: 'het' en 'omdat-het' en 'het-al'.
Tweede zin: Jan laat de auto staan maar gaat op zijn fiets naar huis.
De volgende woorden komen in de eerste en in de tweede zin voor: laat, maar, naar en huis.
'laat' betekent hier heel iets anders dan het 'laat' in de eerste zin en 'naar huis' komt in precies de zelfde samenhang voor.
Als we aan ieder woord en aan hun samenhang een waarde kunnen toekennen
en optellen kunnen we een (grote mate van) waarschijnlijkheid van
voorkomen berekenen. Ook interessant voor justitieel recherche- en ander
voorspellingswerk..?
Model-analyse (vastleggen)...
Lees zinnen uit samenhangende teksten.
Leg ieder los woord uit de zin vast (woordenboek).
Leg ieder woord vast met de samenhang naar ieder woord in de gegeven zin (contextboek).
Indien een woord in verschillende zinnen voorkomt krijgt het telkens 1 punt extra.
Indien een woord in een samenhang in verschillende zinnen voorkomt
krijgt de samenhang 1 punt extra. Er zijn 3 mogelijke samenhangen, t.w.
los woord (1:1), woord en anders (1:n) en anders en woord (n:1).
Model-analyse (opvragen)...
Geef een woord en geef aan of dit een eerste/tweede/derde/enz. woord in een zin betreft.
In een database met uitsluitend de twee voorbeeldzinnen zullen die
beide zinnen op precies de zelfde wijze gereconstrueerd kunnen gaan
worden. Een soort anagram van woorden i.p.v. letters.
Op basis van de volledige tekst van het Nieuwe Testament kun je het
systeem vragen: Waar ging Jezus de meeste (aantal) keren naartoe? (Geef
zinnen met de meeste keren de samenhang 'Jezus' en ???.) Het antwoord
is wellicht: Jeruzalem (aanname) omdat die samenhang het meest
voorkomt. Jezus ging ook wel naar een zieke, naar het meer, naar z'n
moeder, naar Getsemane, naar ..., enz. maar het woord 'Jezus' komt in
één zin het meest voor in samenhang met het woord 'Jeruzalem' (na het
woord Jezus).
© Piet/er Bult