9 juli 2020

Beter plaatjes vinden op Wikimedia Commons met Structured Search

In deze blog legt Hay Kranen, freelance webontwikkelaar en Wikimediaan, uit hoe je de zoektocht naar afbeeldingen op Wikimedia Commons kunt vergemakkelijken.

Een beeld zegt meer dan duizend woorden. Een encyclopedie zonder plaatjes zou dan ook een langdradige en saaie toestand worden. En beelden hebben nóg een voordeel: welke taal je ook spreekt: een plaatje snapt iedereen. Vandaar dat er meer dan 300 taaledities van Wikipedia zijn, maar slechts één project voor alle media: Wikimedia Commons.

Op Commons zijn inmiddels meer dan 60 miljoen foto’s en andere mediabestanden te vinden. Allemaal kosteloos te gebruiken onder een vrije licentie, ook buiten Wikipedia, vaak zolang je de auteur vermeldt.

Maar zoveel bestanden betekent ook dat die éne afbeelding vinden nog niet zo makkelijk is. Commons heeft een zoekmachine, maar die is gebrekkig. De interface is nogal basaal en toont niet de rijkdom van alle prachtige afbeeldingen. Wel een hoop minder nuttige informatie zoals de bestandsgrootte of de afmetingen van de beelden.

En er is nog iets: de informatie over de bestanden (de metadata) is vaak gebrekkig. Je hoeft geen Russisch te kunnen om een foto van het Rode Plein te snappen, maar wél als je een beschrijving in die taal wilt lezen. Veel beschrijvingen zijn vaak wel beschikbaar in het Engels, maar niet iedereen is die taal machtig.

Een ander probleem van metadata is dat een woord meerdere betekenissen kan hebben. Een kiwi is een vrucht, maar ook een vogelsoort. Als je een artikel schrijft over fruitsalade heb je uiteraard weinig aan foto’s van vogels.

Maar de Wikimedia-gemeenschap heeft voor dit probleem jaren geleden al een oplossing bedacht: Wikidata. Wikidata is een enorme database met bijna 90 miljoen items, allemaal met een uniek nummer. ‘Kiwi de vrucht’ heeft nummer Q13194. ‘Kiwi de vogel’ heeft Q43642. En die items kunnen ook labels hebben in meerdere talen, zodat een Koreaan bij die vogel ‘키위’ kan lezen en een Portugees ‘Quivi’.

Het project Structured Data on Commons koppelt die Wikidata-nummers aan mediabestanden. Op die manier kun je dus heel mooi een foto van een kiwivrucht koppelen aan nummer Q13194, en de vogel aan Q43642. Inmiddels zijn 2,5 miljoen bestanden op Commons (zo’n 4% van het totaal) voorzien van structured data, en dat percentage stijgt snel.

Met al die ingrediënten zou je dus een nieuwe zoekmachine kunnen ontwikkelen voor Wikimedia Commons. Daar zijn ze bij de Wikimedia Foundation al mee bezig. Maar het leek mij ook leuk om vast een voorschot te nemen op hoe zoiets eruit zou kunnen zien.

Het resultaat is Structured Search: een alternatieve manier om door de mediabestanden op Wikimedia Commons te zoeken. Daarbij krijgen de afbeeldingen alle ruimte die ze verdienen én zoek je standaard met gestructureerde data. Je kunt zo dus zoeken op zowel kiwi’s (de vrucht) als kiwi’s (de vogel). En de tool is ook meertalig. Vrijwilligers hebben al vertalingen voor de interface gemaakt in 12 talen, waaronder het Nederlands maar ook het Italiaans (Ricerca strutturata) en zelfs het Japans (構造化サーチ).

Maar je kunt natuurlijk ook ‘ouderwets’ zoeken op tekst, of op categorieën. Alle zoekvragen die je normaal kan doen op Wikimedia Commons werken ook bij Structured Search.

Je kunt de tool hier uitproberen. En als je meer wilt weten: bij BNR Digitaal mocht ik in de uitzending praten over mijn tool. Dat interview kun je hier terugluisteren (even doorspoelen naar 11:30).

By Theo Crazzolara (fruit) / John Gerrard Keulemans (bird) / CC BY-SA

Ontwerp en bouw website: Two Kings | Powered by Bolt