Automatisch indexeren
Er zijn softwareprogramma’s op de markt die claimen dat ze van een document geheel automatisch een index kunnen maken. De resultaten daarvan zijn vooralsnog teleurstellend. Wat zij in feite produceren zijn concordanties. Een concordantie is een lijst van elk woord dat in de tekst voorkomt. We kennen concordanties vooral van de Bijbel concordanties, die voor Bijbelstudies een zeer nuttige functie hebben, maar een concordantie is geen index. Een concordantie is voor een normaal non-fictie boek veel te omvangrijk en nagenoeg onbruikbaar als zoekfaciliteit.
Het selecteren van zoektermen is bij indexeren mensenwerk, zoals dat ook bij veel andere toepassingen van zoektechnologie het geval is. Het gaat om het destilleren van de kernbegrippen, en daarin samenhang aanbrengen door het leggen van verbanden tussen hoofdtermen en subtermen en het verwijzen naar synoniemen en bijna synoniemen. Je moet als het ware op de stoel van de lezer gaan zitten en bedenken wat deze zou willen opzoeken in het boek dat voor je ligt. Overigens, veel mensen kijken voordat ze overgaan tot de aankoop van een boek, eerst in de index om te kijken waar het boek over gaat. En zij hebben volkomen gelijk, want bij een goed opgebouwde index krijg je met een enkele oogopslag een goed beeld van het boek zelf.
Dit betekent natuurlijk niet dat indexers geen computers gebruiken. Er bestaat wel degelijk indexing software, deze is vooral bedoeld om de indexer de routinetaken uit handen te nemen (bv. de alfabetische sortering) en om het editen van indexen gemakkelijker te maken (bv. alles een paar pagina opschuiven als de paginering in de hoofdtekst is aangepast). Het bespreken van de verschillende soorten indexing software vergt een blog op zich. Dat zullen we binnenkort een keer doen. Nu de vraag waarom je nog een index nodig zou hebben als full text search beschikbaar is.
Full text search versus indexeren
Iedere Word file of PDF is tegenwoordig volledig elektronisch doorzoekbaar. Word en Adobe Acrobat hebben uitgebreide zoekfuncties. Dus als je een document of boek in elektronisch formaat tot je beschikking hebt, waarom zou je je dan nog om een index bekommeren?
Dat van die volledige doorzoekbaarheid is zeker waar. En buitenstaanders denken vaak dat een indexer dan ook een PDF neemt, een significant woord tegenkomt, dit woord in de zoekfunctie stopt en dan simpelweg de bladzijdenummers noteert van alle pagina’s waarop dat woord voorkomt. Wie dit weleens gedaan heeft weet dat dit een zeer onhandige en tijdrovende manier van werken is, en het levert ook nog eens slechte index op. Het levert in feite, net als met automatisch indexeren, een concordantie op. En de nadelen daarvan heb ik hierboven al uitgelegd.
Wie full text search regelmatig gebruikt, weet dat dit vaak een zeer frusterende bezigheid is. Wat jij zoekt moet precies zo in de tekst staan, anders levert je zoekpoging niks op. Je moet ook alle synoniemen proberen, want schrijvers willen ook weleens een beetje variëren in hun terminologie om de tekst prettig leesbaar te houden. Als je Pietje Puk zoekt in de tekst, dan zoek je waarschijnlijk op ‘Puk’. Maar soms wordt hij ook gewoon alleen maar ‘Pietje’ genoemd of staat er ‘hij’ of ‘hem’ in de tekst, terwijl het toch over Pietje Puk gaat. Een indexer die analytisch te werk gaat, signaleert dat, de computer niet.
Maar misschien gaat het hele boek over Pietje Puk en levert de zoekpoging honderden resultaten op, waarbij het een heel tijdrovend klusje wordt om die allemaal na te trekken en eigenlijk wil je alleen wat weten over, bijvoorbeeld, de schoolcarrière van Pietje Puk. Een index helpt je om dat stukje van Pietje Puk in aan paar seconden te vinden.
Een full text search levert soms ook op een andere manier resultaten op waar je niet naar op zoek was. Je bent in een tekst over de Nederlandse politiek bijvoorbeeld op zoek naar Mark Rutte. De zoekterm die je opgeeft is ‘Rutte’. Dat kan dan bijvoorbeeld ook veel resultaten opleveren over het ‘kabinet Rutte’. Deze tekstgedeeltes gaan helemaal niet over de persoon Mark Rutte, maar over de regering waarvan Mark Rutte toevallig de premier is.
En vanzelfsprekend is ‘full text search’, de naam zegt het al, ook niet in staat om de illustraties in de zoekopdracht mee te nemen. Een analytische indexer indexeert namelijk ook tabellen, illustraties en alle andere mogelijke grafische elementen in een publicatie.
Uiteraard valt er over beide kwesties die hier besproken zijn, automatisch indexeren en full-text search versus indexeren, nog veel meer te zeggen. Voor degene die behoefte aan meer informatie over dit onderwerp verwijs ik graag naar twee Engelstalige artikelen op de site van de Britse Society of Indexers:
Human or computer produced indexes?
Search, or use the index?