Het iCANDID 3.0 SSH FAIR Data Hub project richt zich op het gebied van sociale wetenschappen en (digitale) geesteswetenschappen (SSH) en helpt onderzoekers bij het verzamelen en analyseren van grote hoeveelheden gegevens. De infrastructuur biedt FAIR (Findable, Accessible, Interoperable and Reusable) toegang tot verschillende soorten gegevens uit persmedia, sociale media, open data van de overheid, enz. Onderzoekers gebruiken iCANDID om de gegevens te bevragen, te visualiseren en te exporteren in een formaat naar keuze voor verdere analyse met tools zoals SPSS, Gephi of Sketch Engine. Door de verzamelde gegevens beschikbaar te maken op een speciaal platform, zorgt iCANDID ervoor dat het tijdrovende proces van gegevensverzameling niet herhaald hoeft te worden door individuele onderzoekers, aangezien gegevensextractie, normalisatie en databaseontwikkeling activiteiten zijn waar ze doorgaans veel tijd aan besteden.
In de eerste fase van het project (2018-2022) richtten we ons op het ontwikkelen van een robuuste en schaalbare data-infrastructuur die in staat is om grote hoeveelheden data te extraheren, te transformeren en te laden (ETL), afkomstig van meerdere aanbieders in meerdere formaten en met ondersteuning van meerdere uitwisselingsprotocollen. De gegevens die in dit vroege stadium werden verzameld waren tamelijk homogeen: 9 miljoen tekstuele records uit persdatabases en sociale media-accounts, voornamelijk in het Nederlands. In 2022 ontvingen we nieuwe financiering van de Research Foundation Flanders om de infrastructuur uit te breiden naar een FAIR-datahub voor zowel sociale wetenschappen als geesteswetenschappen, waarbij de laatste specifiek geïnteresseerd is in gegevens uit bibliotheken en archieven. Met de uitbreidingsplannen van onze dataverzameling in zowel volume als diversiteit in termen van vertegenwoordigde talen en opgenomen formaten (tekst, beeld, audio-visueel), zijn we begonnen met het gebruik van AI en machine learning voor data pre-processing om zin te maken van het groeiende datavolume dat beschikbaar is via iCANDID.
We testen momenteel alle relevante AI & ML services zoals automatische vertaling, NER en dataclassificatie, sentimentanalyse en beeldanalyse (inclusief OCR/HTR). Om de resultaten van machine learning te verbeteren voor een aantal specifieke datasets die we hebben geselecteerd, bereiden we momenteel een pilot voor met Google AutoML, waarmee we aangepaste ML-modellen kunnen trainen voor betere resultaten. We zullen de komende maanden ook enkele grotere batches data verwerken met de standaard ML-modellen, zoals automatische vertaling van Tweets van Hongaarse politici en parlementaire data uit Zweden. Dit zijn gegevens waaraan wordt gewerkt in lopende onderzoeksprojecten waarbij onderzoekers van de KU Leuven betrokken zijn. Het is onze ambitie om AI en machine learning te integreren in onze geautomatiseerde processen in de iCANDID-infrastructuur.
Het iCANDID 3.0 SSH FAIR Data Hub onderzoeksproject wordt gefinancierd door de Research Foundation Flanders en wordt geleid door Prof. Leen d'Haenens van het Instituut voor Mediastudies (KU Leuven). Het project omvat verschillende andere onderzoeksgroepen uit de vertaalwetenschappen, computationele linguïstiek, massacommunicatie, literatuurtheorie en culturele studies aan de KU Leuven. LIBIS treedt op als technische partner voor de ontwikkeling van de datahub en het FAIR-datatoegangsplatform. Meer info: icandid.libis.be