Hallo, heeft iemand hier geprobeerd de van dale te dumpen? Ik kwam een berichtje tegen van Weerman (hiero http://www.foondump.nl/forum/viewtopic.php?t=192
) dat hij een zlib uitpak recept heeft toegepast, maar wordt er niet veel wijzer van, op welke bestanden heeft hij dat toegepast en hoe “zoekt” hij naar de woorden in zijn voorbeeld? Verder lijken er bestanden te zijn die de woorden indexeren, weet iemand hoe die eruit zien van binnen?
Ik heb twee programma-tjes gemaakt om de dikke van dalen te dumpen. Het eerste programma unzipt het bestand in een “dat file” en tweede programma gaat de records dumpen vanuit de datfile in een andere file.
Ik doe het in twee stappen omdat de offset soms over de te unzippen blok heen ging. Kan je wel oplossen door grotere buffers te kiezen, maar ik wilde het niet direct te complex maken.
Omdat ik pas eind van de week thuis kom, kan ik je dan pas mijn programmatjes sturen. N.B. De logica van de ‘tokens’ moet nog wel verder uitgezocht worden, echter geheel bestand is te dumpen.
De vriendelijke groet Jan Marco
P.S. Misschien handig als jij een account aanmaakt, want dan kan ik jou een privat mail sturen om de vandalen dumpprogramma’s uit te wisselen.
In de CD-foongids bestaan de databestanden uit opeenvolgende blokken die door ‘zlib’ zijn gehaald. Voor de Van Dale-CD wordt ook ‘zlib’ gebruikt maar tussen de blokken staat het een en ander dat gebruikt wordt om bij het zoeken snel van de ene naar het andere blok te kunnen gaan. Soms is zo’n “tussenblok” vrij groot, dat is ook waar Jan Marco tegenaan liep, daar verslikte de routine die hij uit Foondump overgenomen had, zich. Op zich, als je bij het uitpakken maar van zlib-marker naar zlib-marker beweegt kan het niet mis gaan, dat zijn dus de “78 DA”-bytes waar zo’n blok mee start.
Bij de electronische versie van editie 14 van het GWNT worden 12 databestanden meegeleverd. In de grootste daarvan, “egwn.idb”, zit het woordenboek zelf. In ieder geval dat bestand, de index daarvan en een lijst met woordvormen zijn gecomprimeerd en weer te decomprimeren. Het woordenboek zelf komt daar dan in leesbaar HTML uit maar er staan wel onleesbare zoekaanwijzingen tussen die alleen in een hexdump goed weergegeven kunnen worden:
egwn.idb => egwn_idb.dat:
000000B0 36 34 34 33 3C 21 CF 31 31 20 6E 6F 76 65 6D 62 6443<!.11 novemb
000000C0 65 72 76 69 65 72 69 6E 67 3C 21 0B 31 31 20 6E erviering<!.11 n
000000D0 6F 76 65 6D 62 65 72 76 69 65 72 69 6E 67 3C 21 ovemberviering<!
000000E0 CB 5A 3C 21 CD 30 3C 21 C8 1B 11 01 01 3C 64 69 .Z<!.0<!.....<di
000000F0 76 20 63 6C 61 73 73 3D 22 6C 65 6D 6D 61 22 3E v class="lemma">
00000100 3C 74 61 62 6C 65 20 63 6C 61 73 73 3D 22 6C 65 <table class="le
00000110 6D 22 3E 3C 74 72 3E 3C 74 64 20 63 6C 61 73 73 m"><tr><td class
00000120 3D 22 6B 6F 6C 31 22 3E 3C 2F 74 64 3E 3C 74 64 ="kol1"></td><td
00000130 20 63 6C 61 73 73 3D 22 6B 6F 6C 32 22 3E 3C 2F class="kol2"></
00000140 74 64 3E 3C 74 64 20 63 6C 61 73 73 3D 22 6B 6F td><td class="ko
00000150 6C 33 22 3E 3C 2F 74 64 3E 3C 74 64 20 63 6C 61 l3"></td><td cla
00000160 73 73 3D 22 6B 6F 6C 34 22 3E 3C 2F 74 64 3E 3C ss="kol4"></td><
00000170 74 64 3E 1B 11 01 00 3C 21 92 1B 11 01 01 3C 61 td>....<!.....<a
00000180 20 6E 61 6D 65 3D 22 32 33 39 35 31 33 73 22 3E name="239513s">
00000190 3C 2F 61 3E 1B 11 01 00 3C 21 B1 1B 11 01 01 3C </a>....<!.....<
000001A0 73 70 61 6E 20 63 6C 61 73 73 3D 22 74 72 65 66 span class="tref
000001B0 77 22 3E 1B 11 01 00 31 31 20 6E 6F 76 1B 11 01 w">....11 nov...
000001C0 01 3C 55 3E 1B 11 01 00 65 1B 11 01 01 3C 2F 55 .<U>....e....</U
000001D0 3E 1B 11 01 00 6D 62 65 72 76 69 65 72 69 6E 67 >....mberviering
000001E0 1B 11 01 01 3C 2F 73 70 61 6E 3E 1B 11 01 00 3C ....</span>....<
000001F0 21 A8 1B 11 01 01 3C 73 70 61 6E 20 63 6C 61 73 !.....<span clasegwn.thw => egwn_thw.dat:
000000B0 55 54 41 4E 4F 4C 4C 45 54 4A 45 00 AD 00 00 00 UTANOLLETJE.....
000000C0 20 20 28 52 29 32 42 55 54 41 4E 4F 4C 4C 45 54 (R)2BUTANOLLET
000000D0 4A 45 53 00 C0 00 00 00 20 20 28 53 29 32 42 55 JES..... (S)2BU
000000E0 54 41 4E 4F 4C 45 4E 00 D3 00 00 00 20 20 28 53 TANOLEN..... (S
000000F0 29 32 42 55 54 41 4E 4F 4C 4C 45 54 4A 45 00 E6 )2BUTANOLLETJE..
00000100 00 00 00 20 20 28 53 29 32 42 55 54 41 4E 4F 4C ... (S)2BUTANOL
00000110 4C 45 54 4A 45 53 00 F9 00 00 00 20 20 28 5A 29 LETJES..... (Z)
00000120 31 32 44 49 43 48 4C 4F 4F 52 45 54 48 45 45 4E 12DICHLOORETHEEN
00000130 54 4A 45 00 14 01 00 00 20 20 28 5A 29 31 32 44 TJE..... (Z)12D
00000140 49 43 48 4C 4F 4F 52 45 54 48 45 45 4E 54 4A 45 ICHLOORETHEENTJE
00000150 53 00 2F 01 00 00 20 20 28 5A 29 31 32 44 49 43 S./... (Z)12DIC
00000160 48 4C 4F 4F 52 45 54 48 45 4E 45 4E 00 4A 01 00 HLOORETHENEN.J..
00000170 00 20 20 28 5A 29 32 42 55 54 45 45 4E 54 4A 45 . (Z)2BUTEENTJE
00000180 00 5C 01 00 00 20 20 28 5A 29 32 42 55 54 45 45 .\... (Z)2BUTEE
00000190 4E 54 4A 45 53 00 6E 01 00 00 20 20 28 5A 29 32 NTJES.n... (Z)2
000001A0 42 55 54 45 4E 45 4E 00 80 01 00 00 20 20 31 31 BUTENEN..... 11
000001B0 20 4E 4F 56 45 4D 42 45 52 56 49 45 52 49 4E 47 NOVEMBERVIERING
000001C0 45 4E 00 9C 01 00 00 20 20 31 31 20 4E 4F 56 45 EN..... 11 NOVE
000001D0 4D 42 45 52 56 49 45 52 49 4E 4B 4A 45 00 B8 01 MBERVIERINKJE...
000001E0 00 00 20 20 31 31 20 4E 4F 56 45 4D 42 45 52 56 .. 11 NOVEMBERV
000001F0 49 45 52 49 4E 4B 4A 45 53 00 D4 01 00 00 20 20 IERINKJES.....egwn.wrd => egwn_wrd.dat:
00000000 95 0A 28 42 18 00 00 00 31 31 20 4E 4F 56 45 4D ..(B....11 NOVEM
00000010 42 45 52 56 49 45 52 49 4E 47 00 2A 42 18 00 00 BERVIERING.*B...
00000020 00 31 39 38 34 53 43 45 4E 41 52 49 4F 00 2C 42 .1984SCENARIO.,B
00000030 18 00 00 00 32 31 20 4A 55 4C 49 56 49 45 52 49 ....21 JULIVIERI
00000040 4E 47 00 34 42 18 00 00 00 32 34 20 55 55 52 53 NG.4B....24 UURS
00000050 45 43 4F 4E 4F 4D 49 45 00 3C 42 18 00 00 00 33 ECONOMIE.<B....3
00000060 44 00 44 42 18 00 00 00 33 56 4F 00 4C 42 18 00 D.DB....3VO.LB..
00000070 00 00 34 57 44 00 54 42 18 00 4C 03 41 00 73 42 ..4WD.TB..L.A.sB
00000080 18 00 00 00 41 20 41 00 7B 42 18 00 00 00 41 20 ....A A.{B....A
00000090 41 48 00 83 42 18 00 00 00 41 20 42 41 43 55 4C AH..B....A BACUL
000000A0 4F 20 41 44 20 41 4E 47 55 4C 55 4D 00 86 42 18 O AD ANGULUM..B.
000000B0 00 00 00 41 20 42 45 41 55 20 4A 4F 55 52 20 42 ...A BEAU JOUR B
000000C0 45 41 55 20 52 45 54 4F 55 52 00 89 42 18 00 00 EAU RETOUR..B...
000000D0 00 41 20 42 45 41 55 20 4D 45 4E 54 49 52 20 51 .A BEAU MENTIR Q
000000E0 55 49 20 56 49 45 4E 54 20 44 45 20 4C 4F 49 4E UI VIENT DE LOIN
000000F0 00 8C 42 18 00 00 00 41 20 42 49 53 20 4F 55 20 ..B....A BIS OU
00000100 41 20 42 4C 41 4E 43 00 8F 42 18 00 00 00 41 20 A BLANC..B....A
00000110 42 4F 4E 20 43 48 41 54 20 42 4F 4E 20 52 41 54 BON CHAT BON RAT
00000120 00 92 42 18 00 00 00 41 20 42 4F 4E 20 44 52 4F ..B....A BON DRO
00000130 49 54 00 95 42 18 00 00 00 41 20 42 4F 4E 20 45 IT..B....A BON E
00000140 4E 54 45 4E 44 45 55 52 20 44 45 4D 49 4D 4F 54 NTENDEUR DEMIMOT
Het blijft raden wat nu de doorslag heeft gegeven om het woordenboekbestand in blokken van met ‘tokens’ gelardeerde html op de CD te zetten, de mogelijkheid om de woorden en hun betekenis op een aantrekkelijke manier te kunnen presenteren in het zoekscherm of de eis om het woordenboek geschikt te maken voor MAC-pc’s, daar moeten ze het doen met een vrij houterig browser-zoekscherm.
Op de CD-foon worden de benodigde tag’s er bij het uitpakken en tonen van vermeldingen aan de gebruiker opnieuw weer bijgefantaseerd zodat ze het detailscherm met een css-bestand kunnen ‘stylen’. In het woordenboek-op-CD is dat veel verder doorgevoerd en ook hier bepaalt de inhoud van de bijgevoegde stylesheet, “common.css”, het uiterlijk:
Een deel van het Van Dale zoekscherm ziet er in deze opmaak dan zo uit:
De implicatie daarvan is: laat je het “common.css”-stylesheet los op de uit het ‘zlib’-formaat teruggewonnen Van Dale-HTML - waaruit je wel de de binaire dienstmedelingen, de genoemde ‘tokens’, weggefilterd hebt - dan komt daaruit weer exact zo’n zelfde scherm tevoorschijn.
Daar staat tegenover: opnieuw gaan zoeken in die uitgepakte massieve html-brei (600 Mb) is wel een opgave. Je kan proberen het zoekmechanisme van de producent van de Van Dale-CD, C-Content, te re-engineren of besluiten de woordenboek-lemma’s om te zetten naar een een of ander databaseformaat en vervolgens de content daarin te laten indexeren.
[quote=“Weerman”]… daar moeten ze het doen met een vrij (bn.) Gratis woordenboek | Van Dale][b]hou·te·rig[/b
browser-zoekscherm.[/quote]
Hierzo, vanwege het nieuwtje dat je de CD die bij de 14e editie van de Grote/Dikke Van Dale hoort nu voor het eerst ook op een Apple-computer kan gebruiken zijn ze de Windows-versie van het Van Dale- Gratis woordenboek | Van Dale]zoek·pro·gram·ma (het ~)
bij Planet eens gaan ver·ge·lij·ken (ov.ww.) met de Mac-versie:
Hoi Jan Marco, denk dat je met zwaarder geschut moet komen, “SmartLexicon” heeft al moeite met het mini-woordenlijstje DU-EN dat er als voorbeeld bijzit. “Wörterbuch” bijvoorbeeld zie je wel in die lijst staan als je zelf in “de-en.txt” kijkt maar dat woord kan je via SmartLexicon niet vinden ook al doe je “Worterbuch” of “W.rterbuch”.
Dat woordenlijstje heeft het zgn “ding”-formaat, het “Ding”-programma lijkt gezien de screenshot http://www-user.tu-chemnitz.de/~fri/ding/
al meer van ‘Dictionary Lookup’ te kunnen bakken dan SmartLexicon. Er staan 130.000 woorden in, ongeveer de helft van het aantal in Van Dale maar het is een vertaalwoordenlijst en de gemiddelde grootte van een artikel bij een “lemma” is maar een fractie van die van Van Dale.
Dit is het eerste woord uit de lijst van Van Dale 14:[quote]
11 novemberviering[/size][/b]
… 11 no·vem·ber·vie·ring
… de (v.)
…1 · viering op de dag van de wapenstilstand http://geen.echte.url
(2), waarop de doden van de beide wereldoorlogen herdacht worden
.
[/quote]
Zo’n artikel staat in laten we zeggen een verontreinigd HTML-formaat op de Van Dale-CD, zie ook de hexdump in het postje hierboven. Tokens omgezet, tags gestript, hou je over:
CC 66443
CF 11 novemberviering
0B 11 novemberviering
CB Z
CD 0
B1 11 nov_e_mberviering
21 11 no·vem·ber·vie·ring
88 de (v.)
C8 1 ·
7B viering op de dag van de wapenstilstand
3E wapenstilstand
3F 274598b
7B (2), waarop de doden van de beide wereldoorlogen herdacht worden
Dit trefwoord, “11 novemberviering”, is maar van één betekenis voorzien maar bijvoorbeeld als je de link naar “wapenstilstand” volgt, dat artikel heeft twee betekenissen:
C8 1 ·
7B voorlopige staking van de vijandelijkheden bij overeenkomst (van
langere duur dan een wapenschorsing)
..
C8 2 ·
7B officiële Belgische feestdag, op 11 november, waarop de doden van
de beide wereldoorlogen herdacht worden
Een artikel bij een trefwoord in Van Dale is dus anders georganiseerd. De opslagstructuur van SmartLexicon is vast wel aan te passen maar waarom zou je? Het hangt er natuurlijk van af wat je er voor jezelf mee wil gaan doen maar het zoekprogramma van Van Dale is toch zo slecht nog niet? Is het om van Windows af te zijn?
In ieder geval, naar mijn idee heeft alle moeite die jij je gaat getroosten alleen zin als je je lijst weer terugzet in een echte database waar het tien tegen een oorspronkelijk ook uitkomt. Je kan het dan comfortabel laten indexeren en behalve erin zoeken naar hartelust tellen, er statistiek op los laten, lijsten exporteren en als je dat wil ook opnieuw naar HTML omzetten.
Dat worden dan tenminste drie tabellen, in ieder geval zo zou ik het doen, eentje voor het woord, eentje met 1 of meer betekenissen van dat woord en een voor de kruiskoppelingen:[color=gray]
66443;1;“viering op de dag van de wapenstilstand (2), waarop de doden van de beide wereldoorlogen herdacht worden”
289295;1;“voorlopige staking van de vijandelijkheden bij overeenkomst (van langere duur dan een wapenschorsing)”
289295;2;“officiële Belgische feestdag, op 11 november, waarop de doden van de beide wereldoorlogen herdacht worden”
66443;1;1;25;14;289295;274598b
[/color]Vervolgens moet je voor af en toe de woordvormen van werkwoorden nog iets hebben, ik, jij, hij/zij/het, jullie, zij, u, onvoltooid tegenwoordige en -verleden tijd en voltooid van bijvoorbeeld “wapenen”:Enzovoort.
Ben met je eens om gewoon VanDalen’s structuur aan te houden. Ik ben nu nog bezig om het hoofdprogramma er mooi uit te laten zien. Ik zie voor mij dat je een database 'vandalen" kiest en dan een paar tabellen er onder laat hangen. Probeer dit met docking van schermen te doen.
Ander woordenboekprogramma’s kan je m.i. wat van leren om iets wel of niet te doen.
Sinds 1 augustus 2006 is de herziene spelling van kracht bij de overheid en in het onderwijs. Wie deze officiële spelling wil volgen, kan vertrouwen op de naslagwerken van Van Dale die het spellingkeurmerk van de Nederlandse Taalunie hebben gekregen.[/quote]
De derde druk van “Van Dale Groot woordenboek hedendaags Nederlands” is in die officiële spelling en ook verkrijgbaar op cd-rom http://www.vandale.nl/producten/1003004004160277
als versie 2.1
Op de doos van deze CD-rom staat: “ca. 90.000 trefwoorden” maar het zijn er eerder 85.000. Hoe weet je dat? Nou, ook deze uitgave werd verzorgd door C-Content http://www.c-content.nl
en net zoals bij de CD’s van de Telefoongids en de Dikke van Dale kan iedereen die zo’n cd-rom koopt dit zelf conroleren door het woordenboek te decomprimeren en de trefwoorden in de nu leesbare lijst te tellen.
Ook van de CD die met zijn grote broer, de Dikke van Dale (“Van Dale Groot woordenboek van de Nederlandse taal”, drie delen) meekomt kan je zo’n lijst maken, daarna kunnen beide woordenboeken met elkaar vergeleken worden. Dan blijkt dat er woorden ontbreken aan de toch niet zo lang geleden uitgebrachte nieuwe editie van de Dikke van Dale:
Bij elkaar zijn dat zo’n 4500 woorden die nu wel op de “Hedendaags”-CD en nog niet op de “DVD (DikkeVanDale)”-CD van vorig jaar staan, ondanks de daarop vermelde “Inhoud: 268.826 trefwoorden”. Vaak betreft het samenstellingen van andere woorden die in het GWNT opgenomen zijn en die dan niet zelfstandig in de trefwoordenlijst en wel in een beschrijving van een ander woord voorkomen zoals bijvoorbeeld:
Als “documentatie systeem” gebruikt men de laatste tijd Wiki. Wiki is erg populair de laatste tijd. Mogelijk zouden we de Dikke van Dalen in een Wikki variant kunnen hangen. Dus bijvoorbeeld Welcome to WikkaWiki:Wikka gaan vullen met “De dikke van Dalen”.
Er is al een Wiki-woordenboek http://nl.wiktionary.org
. Het geeft in dezelfde taal de betekenis en linkt naar dat woord in andere talen.
Een woord toevoegen of de betekenis wijzigen of aanvullen doe je in een speciaal formaat, bijvoorbeeld voor het woord “woordenboek”:
{{-nl-}}
{{-pron-}}
:*{{sound}}: [[Media:nl-woordenboek.ogg|woordenboek]]
{{-noun-}}
#'''woordenboek''' {{n}}; een [[naslagwerk]] van [[alfabetisch]] [[gerangschikte]] woorden of [[combinaties]] van woorden, met hun [[verklaringen]], [[definitie]] en aanvullende informatie, zoals [[grammaticale]] eigenschappen en [[vertaling]] van die woorden.
{{-syn-}}
:[[lexicon]]
{{-rel-}}
:[[dictionaire]], [[Wiktionary]]
{{-trans-}}
{| border=0 width=100%
|-
...
Daaronder in stoplicht-rood:
Dus, als jij daar de complete woordenschat uit Van Dale gaat injecteren dan is:
a het Nederlandse deel in één keer klaar en
b hun alarmbel gaat af en even later hebben ze je hele bijdrage weer verwijderd
[quote]Dus, als jij daar de complete woordenschat uit Van Dale gaat injecteren dan is:
a het Nederlandse deel in één keer klaar en
b hun alarmbel gaat af en even later hebben ze je hele bijdrage weer verwijderd [/quote]
De source is te vinden op. MediaWiki Het is gebaseerd op MySQL en PHP.
Het is mij nog niet geheel duidelijk, maar ik denk dat je de info locaal kan injecteren en zal wel een koppeling zijn met andere wiki servers.
Lijkt mij op decentraal concept. Mogelijk dat de ene Wiki server ook op de andere Wike server zoekt.
Als het een Napster concept is dan kunnen ze dat doen.
Ik denk dat het een “achterhoede gevecht” gaat worden. Indien men niet met nieuwe techniek mee wil doen dan wordt men gewoon ingehaald. Analogie: Wordperfect was vroeger de toonaangevende tekstverwerker, momenteel is wordperfect geen speler meer in het spel. Zou dus best kunnen dat straks de dikke van dalen niemand meer iets zegt.
Ik heb even naar de sql bestanden van wiki gekeken. Opzich niet zo spannend. Ik denk dat ‘mijn’ foonsearchd.c concept nog niet hetzelfde is. Mijn doel is meer dat je database onderling gaat synchoniseren. Dus niet 1 database waaruit je de informatie gaat/kan halen.
De vriendelijke groet Jan Marco
P.S. Mogelijk zou Wiki de foondump site kunnen ondersteunnen. Alleen heb ik zelf niet zo’n beeld of dat wel zo handig is.
Deze reorganisatie was noodzakelijk om een beter evenwicht te bereiken tussen de in de toekomst voorziene kosten en opbrengsten. Niet dat de nieuwe versie van GWNT niet liep:
[quote]De introductie van de nieuwe Dikke Van Dale was een succes. Van de in oktober uitgebrachte veertiende editie van het ‘Groot Woordenboek van de Nederlandse Taal’ werden in het verslagjaar al 70.000 exemplaren verkocht, ruim 15 procent boven verwachting.
pagina http://www.tshwanedje.com/publications/TshwanePedia.pdf]“Van TshwaneLex naar TshwanePedia: het samenstellen en flexibel herzien van on line encyclopedieën”
is de titel van een document dat op de website van TshwaneDJe HLT staat, de (Zuid-Afrikaanse) leverancier van “TshwaneLex”, een ‘Dictionary Compilation Tool’, dat kennelijk in gebruik is bij Van Dale Lexicografie getuige het screenshot van de applicatie halverwege de “Product-Overview”-[url=http://www.tshwanedje.com/tshwanelex/overview.html[/url] waarin men een Nederlands-Frans/Frans-Nederlands (pocket)-woordenboekje van Van Dale samengesteld ziet worden.
Wat voor techniek zit er in MS Word en niet in WordPerfect dat WP niet meer mee kon doen? De twee tekstverwerkers waren juist technisch onderling zo uitwisselbaar
geworden dat daar geen marketing-argumenten meer uitkwamen. Met de marketing is daarna gewoon geklungeld, niet met de techniek. Daf en Fokker zijn ook niet failliet gegaan omdat ze hun servicedocumentatie niet op tijd in een “Wiki” hadden ondergebracht.
Van Dale woordenboeken zijn woordenboeken, het “Groene Boekje” is een woordenlijst, Wikipedia
over het Groene Boekje:
[quote]De Woordenlijst Nederlandse taal, vanwege zijn groene kaft en stofomslag algemeen bekend als het Groene Boekje, is een uitgave van de Nederlandse Taalunie met een overzicht van de officiële spelling van Nederlandse woorden, onder andere gebaseerd op het Spellingbesluit. Hoewel het Groene Boekje vaak de doorslag geeft bij het bepalen van de juiste schrijfwijze van een Nederlands woord, heeft strikt genomen alleen de woordenlijst bij het Spellingbesluit wettelijke status.
Het Groene Boekje wordt uitgegeven door de Sdu in Nederland en, Lannoo in Vlaanderen. Het is internetversie http://www.hetgroeneboekje.nl]beschikbaar
in een papieren versie en op cd-rom tegen betaling; de Nederlandse Taalunie biedt zelf kosteloos de officiële [url=http://woordenlijst.org[/url] aan. [/quote]
Ewoud Sanders vorige week maandag in de NRC NRC - Nieuws, achtergronden en onderzoeksjournalistiek
over het Groene Boekje:
[quote]Of er uiteindelijk net zoveel van worden verkocht als van de vorige editie – in tien jaar tijd 1,3 miljoen exemplaren! – valt te bezien, maar men koopt zich rot aan spellingproducten.
Waarom? Omdat spellingwijzigingen onzeker maken. Omdat het voor veel mensen nodig is om bij te blijven.
Maar het is natuurlijk waanzin om daar steeds boeken voor te blijven kopen. Het Groene Boekje staat al volledig op internet, maar je kunt het niet downloaden of in z’n geheel inzien (alleen per woord). Evenmin heeft de Taalunie een programmaatje laten maken om die 903 gewijzigde woorden gratis toe te voegen aan je tekstverwerkingsprogramma. In plaats daarvan kun je een cd kopen, binnenkort ook van de Witte Spelling.
Het is noodzakelijk om de spelling van nieuwe woorden vast te leggen en dus zullen spellinglijsten om de zoveel tijd moeten worden herzien. De belastingbetaler betaalt daarvoor. Om vervolgens nóg eens te betalen, voor een sigaar uit eigen doos.[/quote]
Het Groene Boekje op CD heeft “Elektronisch Groene Boekje” in de titelbalk:
Een wat wereldvreemd gevalletje dat na de installatie geheel afhankelijk is van Microsoft Word, ermee spellen kan ook in de andere onderdelen van Office maar het getoonde woordenlijstscherm kan uitsluitend als ‘add-in’ van Word geopend worden. De software is ontwikkeld door Polderland
Language & Speech Technology bv, Nijmegen. De naslagwerkenwereld is klein, hetzelfde Polderland levert ook (een deel van) het zoekmechanisme voor de CD-foongids aan producent C-Content.
Dat Polderland zit als een spin in het spelweb:
Misschien is een beetje te volgen hoe Polderland deze klus heeft geklaard met een kijkje in de folder C:\Program Files\Common Files\Microsoft Shared\Proof. Helaas is informatie over Microsoft’s Common Speller Application Programming Interface (CSAPI) niet of nauwelijks te vinden. Die informatie en de tools om .lex-bestanden samen te stellen en te onderhouden worden begrijpelijkerwijs achter slot en grendel gehouden om te voorkomen dat iedereen zomaar met de kostbare woordenlijsten aan de haal kan gaan. Als je de centrale EGB3.dll tegen het licht houdt roept een van de strings die daar uitvallen opeens zonder aanleiding:
001ABAC0 60 85 05 10 88 EE 10 10 88 EE 10 10 50 1E 01 10 `...........P...
001ABAD0 50 8E 00 10 44 00 6F 00 6E 00 27 00 74 00 20 00 P...D.o.n.'.t. .
001ABAE0 73 00 75 00 62 00 63 00 6C 00 61 00 73 00 73 00 s.u.b.c.l.a.s.s.
001ABAF0 21 00 00 00 00 00 00 00 50 0E 20 10 F0 54 06 10 !.......P. ..T..
Don’t subclass! Doe het niet maar het kan wel? Inderdaad een testprogrammaatje loopt zonder moeite van “06-nummer” naar “zwoord” en drukt - niet pijlsnel maar in een redelijk tempo - de nieuwe Staatswoordenlijst 2005 van in totaal - blijkt nu - 102533 woorden af:
[code]Sub main()
Dim edit As Window, list As Window '<= Stinga SGWindow.dll
Const VK_DOWN = &H28
With New Window
.AttachDesktop
With .FindWindows(“”, “Elektronisch Groene Boekje”)
With .Item(3)
Set edit = .FindWindow(“Edit”, “”)
Set list = .FindWindow(“SysListView32”, “”)
End With
End With
End With
End Sub[/code]
Meteen al vooraan in die lijst een paar dingen die opvallen:
[i]aal[/i] dat [i]mestvocht[/i], [i]bier[/i] of [i]paling[/i] kan betekenen komt eruit als [i]aal1[/i], [i]aal2[/i], en [i]aal3[/i]
[i]aalpomp[/i] bijvoorbeeld komt nergens anders voor, de beide Van Dale'ns willen er niets van weten maar in België kan je hem gewoon huren
http://www.eurorent.be/product.php?productsubcat=229
, het is een klokpomp voor het leegmaken van beerputten. Hier laat de Taalunie dus zijn sporen na als verbond tussen Nederland, België en Suriname
een langere uitdrukking als [i]aangehaalde plaatse (ter aangehaalde(r) plaatse)[/i] toont in de 'ListView', een van de ge-subclass-te schermonderdelen ingekort als [i]aangehaalder plaatse (ter aa...[/i] In de geproduceerde lijst wel volledig omdat het programmaatje de trefwoorden overneemt uit het invoervenstertje dat steeds ververst wordt als de cursor in de lijst naar een andere regel gaat
eigennamen ook verworden tot soortnamen zoals [i]Assepoester[/i] en [i]assepoester[/i] zijn beide opgenomen, respectievelijk als [i]sprookjesfiguur[/i] en als [i]slordige meid[/i]
[i]purgeerpoeier[/i] volgens EGB3 voorwerp EN stofnaam staan onder elkaar als [i]purgeerpoeier [1][/i] en [i]purgeerpoeier [2][/i]. Toch een hobbeltje, [i]purgeerpoeier [1][/i] en [i][2][/i] komen via het zoekvenstertje als twee maal identiek [i]purgeerpoeier[/i] in de afgedrukte lijst terecht
Twee 'oplossingsrichtingen' (en ja 8) [i]oplossingsrichting[/i] staat ook in de lijst): of een andere aanpak die meteen de betekenissen meeneemt en dan maar genoegen nemen met een niet-unieke index of de pijlen rechtstreeks op het ListView-ding richten.
Dat laatste lukt inderdaad met wat code die iemand omdat het niet meteen werkte met een hulpvraag in dit forum
publiceerde. Nog weer sneller ook dan de eerste methode en nu met als resultaat de lijst zoals die in het scherm weergegeven wordt.
Uiteindelijk ging het maar om tien gevallen zoals die purgeerpoeiers die twee keer voorkomen en bij controle van die aangehaalde … enz. zie je dat lange strings nu afgeknot zijn tot 40 posities: aangehaalde plaatse (ter aangehaalde(r). In goed Nederlands: Subclass, Win Some, Lose Some.
In het “betekenis”-schermpje kan alleen met de hand en dan nog met enige moeite tekst geselecteerd (alleen met de muis) en gekopieerd (alleen via het toetsenbord) worden. Softwarematig wel met behulp van bijvoorbeeld de Snagit-COM
-interface maar die is traag… Kortom, dat is dan ook de moraal van dit verhaal: Don’t subclass!
Dat hoeft niet beperkt te blijven tot het Groene Boekje, ook de trefwoordenlijsten op de cd’s bij de recente Van Dale woordenboeken lenen zich daar voor, de vertaalwoordenboeken (uitgeprobeerd op EN-NE) inbegrepen. Die van de Dikke van Dale doet er natuurlijk wel iets langer over maar ook GWHN - in de setup VDNN (Nederlands-Nederlands) gedoopt - staat zijn lijst in een halve minuut af:
[code]Sub Main()
Dim hListView As Long, sItems As Variant, i As Long
With New window 'Stinga Window Wrapper Library 1.1
.AttachDesktop
With .FindWindow(“”, “Van Dale Groot woordenboek hedendaags Nederlands”)
hListView = .FindWindow(“TListView”, “”).hWnd
End With
End With
sItems = GetListViewItems(hListView)
Open “lv2txt.csv” For Output As #1
For i = 0 To UBound(sItems)
Print #1, CStr(i + 1); “;”; sItems(i)
Next i
Close
End Sub[/code]
De uitgever van de CD-foongids neemt daarin “spooknamen” op zodat ongeoorloofd kopiëren getraceerd kan worden. Zo zou je eventueel ook Spookwoord - Wikipedia]“spookwoorden”
in woordenboeken kunnen aantreffen. Je kan daartoe een lijst met zichzelf in een vorige versie gaan vergelijken, bijvoorbeeld GWHN 2.1 met GWHN 2.0 of met een lijst van een andere uitgever. Effectieve methode, een voorbeeld: de woorden uit de lijst van het vorige Groene Boekje (1996) waren al eerder uit hun hok ontsnapt en onder andere het online-woordenboek [i]www.nederlandsewoorden.nl[/i maakt daar dankbaar gebruik van.
Bij een vergelijking van de trefwoorden uit EGB 3 met die uit VDNN 2.1 stuit je meteen al op het woord “acoeti” dat Van Dale niet heeft. Iemand blijkt die fout al Hans van Maanen: Artikelen: Bladgroen]ontdekt
te hebben, typefout volgens de Taalunie, maar hoe is diezelfde fout dan in de lijst van www.nederlandsewoorden.nl terechtgekomen? Je krijgt daar keurig het geslacht, de wijze van afbreken en het meervoud van het niet-bestaande woord, kortom de informatie die het Groene Boekje in het detailvenster toont. Niet (meer) in de online woordenlijst van de Taalunie zelf, daar komt nu “agoeti” uit maar nog wel op de cd van het Groene Boekje, ook als je de update van [i]www.patchegb30.nl[/i hebt geinstalleerd.
Iemand die de hele officiële Nederlandse woordenlijst in bulk kan hergebruiken en daartoe geen overeenkomst sloot heeft dan op een of andere manier de informatie uit dat detailvenster van het Groene Boekje weten terug te winnen om die aan zijn trefwoordenlijst te koppelen? Misschien wel zo:
[code]Sub Form_Load()
Dim list As Window
Dim hwnd As Long, viewleft As Long, viewtop As Long, viewright As Long, viewbottom As Long
Dim n As Long, ok As Boolean
Const VK_DOWN = &H28
With New Window
.AttachDesktop
With .FindWindow(“”, “Elektronisch Groene Boekje”)
.State = sgMaximized
Set list = .FindWindow(“SysListView32”, “”)
With .FindWindow(“wxWindowClassNR”, “htmlWindow”)
hwnd = 0 '.hwnd
viewleft = .Left
viewtop = .Top
viewright = .Left + .Width
viewbottom = .Top + .Height
End With
End With
End With
For n = 1 To 102533 'vastgestelde totaal aantal trefwoorden EGB3
Dim tekst As String
ok = GetWord1.GetRectString(hwnd, viewleft, viewtop, viewright, viewbottom, tekst)
If ok Then Debug.Print tekst
list.SendMessage wm_KEYDOWN, VK_DOWN, 0&
DoEvents
Next
End Sub[/code]
Die ‘GetRectString’ zit in het dll/ocx-tandem ‘GetWord’ van http://www.textcapture.com/en/default.html][i]Textcapture.com[/i
. Vrij prijzig en zo te zien nog niet helemaal af, maar het levert wel tekst daar waar andere vergelijkbare ‘componenten’ het laten afweten. In de vrij te downloaden proefversie wordt bij de start en het afsluiten een ‘trial’-venstertje getoond dat een aantal seconden aftelt alvorens er op “OK” geklikt mag worden. Die in totaal acht seconden komen dus bovenop de 14 uur die dit programmaatje nodig heeft om het “Elektronisch Groene Boekje” geheel van A tot Z te doorlopen - of liever: van “06” tot “z”.
[size=9]*) het langste trefwoord in EGB is 65 tekens, in DVD 251. Op 3 plaatsen moet daarom de buffergrootte aangepast worden, een daarvan had ik eerst over het hoofd gezien. Vanwege de lengte van de lijst voldoet een ‘integer’ niet meer als lusteller, maak die ‘long’. Alles gaat merkbaar sneller als je de patch voor EGB 3.0 installeert, zie hierboven voor de link.[/size]
Vlak na elkaar verschenen CD-foongids 2007 en Van Dale’s nieuwsgierig http://www.vandale.nl/producten/1001004004489100]Jaarboek Taal 2007
met CD-rom. Beide CD’s zijn weer geproduceerd door hetzelfde bedrijf, C-Content, en dus was ik [url=http://www.foondump.nl/forum/viewtopic.php?p=2107#2107[/url] naar de voor dat Jaarboek gebruikte opslagmethode en natuurlijk ook naar de stand van zaken rondom de lijst van de woorden, die nog niet in het in 2005 uitgekomen Groot Woordenboek van de Nederlandse Taal bleken te staan.
Het woord “afwaskwast” stond in 2005 nog niet in de Grote Van Dale, een jaar later wel in Hedendaags Nederlands en nu ook in Jaarboek Taal 2007. Bestond dat woord dan niet voor 2005? Het woord staat bijvoorbeeld wel al in hun woordenboek NE-EN van 2002, maar zo werkt het niet bij Van Dale:
[quote]De opnamecriteria van het Jaarboek taal zijn laagdrempeliger dan die van een gewoon verklarend woordenboek. Daardoor is voor sommige taalvormen die niet in aanmerking kwamen voor vermelding in de Grote Van Dale, in het Jaarboek taal wel ruimte.
Sommige ‘nieuwe’ woorden in het Jaarboek taal zijn in werkelijkheid stokoud, zoals werftrap en zuurkoolspek. Deze woorden zijn worden hier niettemin veelal voor het eerst in woordenboekboekvorm gepresenteerd. Dat ze niet eerder in de Grote Van Dale zijn opgenomen, is te verklaren doordat ze in het verleden niet vaak genoeg werden aangetroffen in de corpora die worden gebruikt bij de samenstelling van de Grote Van Dale. Een nieuwsfeit, zoals een neerstortende werftrap, kan daar echter in één (harde) klap verandering in brengen. Op grond van het regelmatige voorkomen in de corpora van 2006 is werftrap, hoewel tamelijk doorzichtig, in dit Jaarboek taal opgenomen.
Signalering en behandeling in dit Jaarboek taal betekent nog niet automatisch dat een woord of uitdrukking te zijner tijd ook in de Grote Van Dale zelf zal worden vermeld. Wat betreft werftrap is dat zelfs onwaarschijnlijk.[/quote]
Dus, het ontbreken van woorden als “afwaskwast” is “te verklaren doordat ze in het verleden niet vaak genoeg werden aangetroffen in de corpora die worden gebruikt bij de samenstelling van de Grote Van Dale”. Aha, die negen mensen gedwongen http://www.foondump.nl/forum/viewtopic.php?p=1934#1934
laten afvloeien, voortaan een PC-tje de krant laten lezen en pas als die software “afwaskwast” tegenkomt zetten ze het woord bij de redactie van Van Dale op de lijst.
Zoals gemeld http://www.foondump.nl/forum/viewtopic.php?p=2107#2107
is C-Content op een ander formaat overgegaan om de data op CD te zetten. Het gaat op deze CD om 4000 woorden in plaats van de 90000 of 350000 woorden zoals op de CD’s van de grotere woordenboeken Nederlands. Misschien maakt dat verschil en kon deze keer op een ander, extra getrapt, formaat worden teruggevallen, dus met én compressie én encryptie? Omdat de grootte van het gegevensbestand op deze CD weer te overzien was?
C-Content werkt al jaren met presentatie in een HTML-venster. Daartoe wordt door de zoekprogramma’s van GWNT en VDHN een wat groter gecomprimeerd blok ingelezen, waarna de armelui’s-HTML voor het gezochte artikel opgewerkt wordt tot een echte webpagina. In het “.idb”-bestand voor het nieuwe Jaarboekje zijn duidelijk evenzoveel gecomprimeerde kleine blokjes met “gehusselde” bytes waarneembaar als het aantal zelfstandige zoekwoorden, het totaal van de 4360 “ingangen” minus de aanvullende verwijzingen. Die blokken worden dus pas na een aantal bewerkingen leesbaar, welke stappen daar precies voor nodig zijn weet je niet.
Maar zoals je bij judo je oefenpartner kan laten uitrazen om hem daarna op de mat te leggen, zo kan je bij zo’n zoekprogramma gewoon wachten tot ie klaar is met zijn ding te doen en daarna even in z’n werkgeheugen kijken wat het geworden is. Bijvoorbeeld met pmdump http://www.ntsecurity.nu/toolbox/pmdump
, terwijl het Van Dale-Jaarboek Taal 2007 nog openstaat op de zoekopdracht “afwaskwast”:
[code]
afwaskwast
af·was·kwast
de (m.); -en
1
·
vatenkwast
[/code]
Dat ziet er indrukwekkend uit, ze hebben er zelfs een 'doctype' bovengezet, maar er zitten toch nog fouten in deze html-code voor JBT 2007, de 'validator' bij W3C
http://validator.w3.org
zegt:
[i]
required attribute "CONTENT" not specified
value of attribute "NAME" must be a single token
[/i]Dus in de meta-regels had die spatie in "search word" vervangen moeten worden door een underscore o.i.d. en "value" had daarin moeten zijn, "content"?
Gegeven de zeer specifieke regel “” waarin het desbetreffende zoekwoord weer terugkeert, zou die regel misschien niet de basis kunnen zijn voor een complete ‘dump’ van dit woordenboekje? Met behulp van de eerder in deze ‘thread’ besproken listviewexport http://www.foondump.nl/forum/viewtopic.php?p=1949#1949
of anders met een artificiële pijl-omlaag-en-dan-klik-methode kan vrij eenvoudig door de lijst met trefwoorden gelopen worden en door vervolgens steeds het zoekwoord naar het zoekveldje terug te sturen of bij het passeren op ieder woord te klikken vraag je het zoekprogramma constant om zijn detailvenster te verversen. Het zoekprogramma zal dan iedere keer de ‘content’ voor het actuele zoekwoord ophalen, ontsleutelen, decomprimeren en optuigen tot een compleet HTML-paginaatje, dit alles in het tot z’n beschikking staande geheugen.
Dat geheugen kan dan in dezelfde regelmaat met een speciaal daarvoor geschreven routine gescand worden op de string “<meta name=”“keyword”" value=“” & zoekwoord & “”“>”. Vanuit de gevonden pointer kan de software terugzoeken naar bijvoorbeeld “” en verderop naar “” als prijs gesteld wordt op de volledige html-code. Daarmee kunnen gestaag alle beschrijvingen compleet met extra informatie als afbreekplaatsen, geslacht en meervoud van ieder woord boven water gehaald worden. In combinatie met het stylesheet dat bij het woordenboek zit zal dat werkende html-paginaatjes opleveren, maar iemand kan nog een stap verder gaan en het hele zaakje in de samenstellende delen ontleden door zich vast te houden aan de ‘class-attributen’ van de “META”-, “DIV”- en “SPAN”-elementen:
doctype dictionary article
docid 1000083
keyword afwaskwast
keywordresult afwaskwast
search word afwaskwast
lemma 200750136s
trefw afwaskwast
kopinf af·was·kwast
blok de (m.); -en
betnr 1
20075006494b vatenkwast
Voor een routine die als aangegeven het werkgeheugen van het zoekprogramma kan aftasten zoek je via internet bij voorkeur op ‘keywords’ als “OpenProcess”, “VirtualQueryEx”, “GetSystemInfo” en “ReadProcessMemory”. Tot slot, het is natuurlijk niet uitsluitend dit nieuwe woordenboekje dat zich leent voor deze benadering, andere woordenboeken laten op dezelfde manier over de schouder meekijken.
De OpenTaal-projectgroep heeft een woordenlijst online gezet die aan de nieuwe spelling voldoet. De lijst, bedoeld voor gebruik in combinatie met opensourcesoftware, zal ‘begin 2007’ door de Nederlandse TaalUnie gecertificeerd worden.
Dat het werk van de groep nuttig is, lijdt geen twijfel; de vele fouten in de aankondiging op ososs.nl (‘sofwtare’, ‘ondermeer’, ‘gecontrolleerd’) maken dat wel duidelijk.
Toch blijft het volstrekt onbegrijpelijk dat de overheden van de bij de Nederlandse TaalUnie aangesloten landen niet meer aandacht - en geld - besteden aan de vrije beschikbaarheid van de officiële, in het Groene Boekje vervatte woordenlijst.[/quote]
Op de website van dat OpenTaal onder andere een uitleg http://www.opentaal.org/documenten/20060115_BK_Recht%20op%20taal_-_OpenTaalv04.html
over het al dan niet vrij beschikbaar zijn van Nederlandse woordenlijsten en -boeken:
[quote]Hoe zit het met de rechten op het de Woordenlijst Nederlandse Taal van de Nederlandse Taalunie (cq. het Groene Boekje)?
De Nederlandse Taalunie is de samensteller van de Woordenlijst Nederlandse Taal en daarmee auteursrechthebbende. Zij heeft de Sdu een exclusieve licentie gegeven op de integrale publicatie van de woordenlijst. Sdu heeft daardoor het alleenrecht op publicatie van het papieren en digitale Groene Boekje. Daardoor is de integrale Woordenlijst Nederlandse Taal momeneel niet vrij beschikbaar, en deze mag niet zonder meer worden gekopieerd, verderverspreid of aangepast. De Woordenlijst Nederlandse Taal kan dus ook niet met open source applicaties worden meegeleverd.[/quote]
Er is verschil tussen “vrij beschikbaar” en “vrij beschikbaar”:
Ook daar, al dan niet vrij gebruik maken van zo’n woordenlijst is gebaseerd op:
Met een verwijzing naar de rechtszaak
van Van Dale destijds tegen het warhoofd Romme:
[quote]Het geschil ging om de vraag of het trefwoordenbestand van de Grote van Dale auteursrechtelijk beschermd is. Getoetst aan deze twee criteria
oordeelde de Hoge Raad dat zo’n bestand niet auteursrechtelijk beschermd is.[/quote]
Het OpenTaal-project borduurt voort op het werk aan deze bestaande en al wat oudere woordenlijst http://www.ntg.nl/spelling
. Als ik het goed begrijp wordt het “open” karakter van de nieuwe woordenlijst gegarandeerd door hem dan maar helemaal opnieuw samen te stellen:
[quote]Het gaat om een lijst met woorden http://www.opentaal.org/documenten/nwe_oogst.xls
die [met een soort webspider] uit de publiek toegankelijke onderdelen van de websites van de kranten Trouw, Volkskrant en De Standaard zijn geoogst.
Uitleg: in principe zijn alleen woorden die nog niet in onze woordenlijst voorkomen opgenomen. In de tweede kolom is aangegeven of het woord in het Groene Boekje voorkomt en wel als een grondwoord (G) of een flexievorm (F). In de derde kolom staat het aantal hits dat de Nederlandse zoeksite Vindex op het woord geeft, of -1 indien deze score niet beschikbaar is. [/quote]
Even gekeken wat zo’n nog voorlopige versie van een steekproef http://www.opentaal.org/download-bestanden.php]Nederlandstalig taalhulpbestand
van OpenTaal doet met mijn eerdere (volstrekt willekeurige) [url=http://www.foondump.nl/forum/viewtopic.php?p=1896#1896[/url]:
Ik zie dat er enthousiaste pogingen worden gedaan de VanDale database te lezen.
Heeft al iemand kans gezien de VanDale woordenboeken te gebruiken zonder MS Windows?
(de Dikke en de vertaalwoordenboeken)
Als dit zou werken kan ik MS definitief dumpen.