donderdag 10 december 2009

Statistieken thema's

Een mail gekregen van Julien uit Sint-Niklaas :

"Ik heb in Sint-Niklaas een statistiek gemaakt per themawoord voor de volwassen fictie. Wij hebben 16.467 romans. In de statistiek kom ik tot 26.591 gegeven themawoorden en daarnaast 2.860 romans zonder thema. Deze massa gaat onvermijdelijk het belang van de fictiecollectie buiten alle proportie doen opzwellen.

We hebben meer dan 3.000 verschillende themawoorden gebruikt, die moeten herleid worden tot een 20-tal indelingen voor de groeperingstabellen. Voor januari zien we ons dit niet doen. Bovendien kan moeilijk elke bibliotheek die niet aangesloten is bij een PBS dit moeilijk telkens opnieuw doen"


Ik heb ook nog geen oplossing gevonden voor het probleem van de genres.

Maar ik ben wel tot het besef gekomen dat we het probleem wat overroepen.

Er zijn eigenlijk 2 problemen met de genres.

1. Onze genres zitten verstopt tussen (enkele honderden, zelfs duizenden) thema's. Maar dat hoeft geen probleem te zijn om de statistieken te maken. We moeten enkel de genres waarvoor we cijfers nodig hebben, uit de lange lijst van thema's halen. Die lijst van thema's is alfabetisch gerangschikt, dus erg veel tijd kost het niet om daar genres als 'psychologische literatuur' 'novellen', 'columns' enz uit te halen.

Het zou natuurlijk makkelijker zijn mochten we een groeperingstabel hebben die ervoor zorgt dat we bij de output enkel de genres krijgen, niet de overtollige thema's. Maar zo'n tabel maken is inderdaad een enorm werk, omdat je in die tabel alle genres moet opsommen én ervoor zorgen dat de rest verwoord wordt als 'andere' (of zoiets). Mij lijkt het overbodig werk.

2. Sommige romans hebben meerdere genres, en zullen dus dubbel geteld worden. Ik denk dat we dat wat overdrijven, van die dubbele (of driedubbele... genre-aanduidingen). Meestal gaat het niet om meerdere genre-aanduidingen bij een beschrijving, maar om 1 genre aangevuld met thema's. Ik heb de proef op de som genomen. Ik heb van 500 romans in SSP een output genomen op korte titel + veld 631/$a (thema). Wel, van die 500 waren er slechts 27 die inderdaad 2 genre-aanduidingen hadden.

Nu, als je die 27 op 500 extrapoleert naar een totaal aantal romans van 16000, kom je uit op 864 beschrijvingen die dubbel zullen geteld worden. Het zijn er natuurlijk 864 teveel, maar dramatisch lijkt mij dat niet. Temeer omdat die 864 dan verdeeld worden over alle genres. Als we uitgaan van 15 genres, maakt dat maar een overschatting van 58 boeken per genre. Dat valt dus wel mee, vind ik.

Bedenk ook het ICB-model enkel de indeling per genre vraagt voor de volwassenen romans Nederlandstalig ; niet anderstalig, niet grootletter, geen luisterboeken, geen makkelijk lezen, geen poezie/toneel (want al die categorieën zitten apart in het model, en voor al die categorieën moet geen indeling in genres gemaakt worden).

2 opmerkingen:

  1. Ik was juist bezig met een oplossing voor de thema's: ik heb in SSP een lijst getrokken van alle romans met een thema/genre. Die lijst heb ik gepubliceerd in Excell met per record de titel (kolom 1) en het thema (kolom 2). Als er meerdere thema's zijn, worden die onder elkaar geplaatst in dezelfde kolom, telkens op een nieuwe lijn. In Excell kan je dan gaan sorteren en/of filteren op die tweede kolom.

    Het enige probleem is bij meerdere thema's per titel. Dus zou je er moeten voor zorgen dat er per lijn slechts één titel staat met één thema/genre. Je kan het 2e, 3e, ... thema telkens manueel gaan verwijderen maar een eenvoudige macro die lijn per lijn afgaat en die lijn verwijdert als er in de eerste kolom (titel dus) niets staat ingevuld, kan dat automatisch. Dan blijft er dus een bestand over
    met inderdaad per lijn één titel en één thema. Dan kan je probleemloos gaan filteren op genre.
    Alleen het bepalen van het juiste aantal blijkt dan nog niet zo evident maar dat kan allicht desnoods met knip en plakwerk worden opgelost.
    Omslachtig (alweer) maar toch nog te doen en het zal er niet ver naast zijn (tenzij ik een grote redeneerfout heb gemaakt, laat dat gerust weten).

    Uiteraard biedt dit nog geen afdoende oplossing voor het koppelen aan de uitleencijfers. Daarom bedank ik Paul om het hele probleem alweer wat verder te nuanceren (en te relativeren :). Ik heb ook al vastgesteld intussen dat het inderdaad toch niet zoveel lijkt voor te komen dat een boek meer dan één genre heeft. Dan kunnen we allicht wel leven met een beperkte foutenmarge.

    BeantwoordenVerwijderen
  2. Vincent,

    Als je een excel-bestand hebt van deze vorm :

    Korte titel :
    Vallende bladeren
    Thema :
    Ouder-kindrelatie
    Yen Mah, Adeline
    Waar gebeurd
    Autobiografische literatuur

    Dan staat het genre wat wij nodig hebben soms als 1ste thema vermeld, maar soms slechts als 3de of 4de.
    Als je dus een makro gaat maken om bij titels die meerdere thema's hebben, telkens het 2de en volgende thema automatisch te verwijderen, dan ga je soms net die genres verwijderen waarover wij cijfers moeten hebben, terwijl het nietszeggende thema overblijft.

    De enige oplossing zou zijn : alle titels manueel overlopen, het eerste genre laten staan, alle volgende genres én thema's verwijderen.

    Maar dat lijkt mij niet doenbaar.

    Ik denk dat ik maar gewoon de cijfers ga invullen die ik uit Vubis kan halen. Zijn ze niet helemaal correct, tant pis. Een kleine foutenmarge lijkt mij niet rampzalig. Bovendien : in het geheel van de parameters die we per onderdeel moeten invullen, zijn die cijfers maar één element (weze het een belangrijk element).

    BeantwoordenVerwijderen

Wachtebeke is Boekegem 2008