2 januari 2024

Bekendste AI-beeldbank offline na ontdekking van afbeeldingen met kindermisbruik

Een grote en veelgebruikte AI-database is tijdelijk offline gehaald nadat onderzoekers hadden ontdekt dat deze meer dan duizend afbeeldingen met kindermisbruik bevat. Pijnlijk, want AI-bedrijven gebruiken de beeldbank om hun modellen te trainen.

In de ruim vijf miljard afbeeldingen in de AI-beeldbank Laion-5B zitten minimaal duizend gevallen van kindermisbruik. Dit blijkt uit nieuw onderzoek van de Stanford Internet Observatory. De foto’s kwamen aan het licht door Laion te vergelijken met bestaande databases met bekend kindermisbruik-beeldmateriaal.

AI-bedrijven kunnen Laion gratis gebruiken om hun modellen te trainen. Het bekendste voorbeeld is Stable Diffusion, dat in staat is om fotorealistische afbeeldingen te maken op basis van tekstbeschrijvingen. Bijvoorbeeld: ‘Franse kat die een dansje op de maan doet.’

De Duitse non-profitorganisatie achter Laion verzamelde miljarden plaatjes op het internet, inclusief de bijbehorende beschrijvende teksten. Het probleem is dat dit geautomatiseerd afstruinen van het web ook problematisch materiaal binnenhengelt, op basis waarvan AI vervolgens weer nieuw illegaal beeld kan genereren.

De Duitse organisatie heeft zijn database tijdelijk offline gehaald. AI-hoogleraar Marcel Worring (UvA) roemt dit besluit, maar vindt ook dat de organisatie in gebreke is gebleven: ‘In ieder geval een deel van het onderzoek van Stanford hadden ze ook zelf kunnen doen. Namelijk: het vergelijken van Laion met de misbruikbeelden die al bekend zijn.’

Andere bedrijven delen database niet

Stability, het Britse bedrijf achter het veelgebruikte Stable Diffusion, benadrukt tegenover Bloombergdat het al eerder actie ondernam om illegale activiteiten te beperken.

Het onderzoek concentreert zich op Stable Diffusion omdat Stability als een van de weinige AI-bedrijven transparant is over zijn trainingsdata. Bij andere grote beeldgeneratoren is dat niet het geval. Midjourney gebruikt Laion-5B vermoedelijk ook, maar wil tegenover Forbes niet reageren.

Imagen van Google werd ook deels gemaakt met behulp van Laion, maar tijdens een intern onderzoek vonden ontwikkelaars ‘een breed scala aan ongepaste inhoud’, waaronder porno en racistische opmerkingen. Google achtte Laion daarna ongeschikt voor openbaar gebruik, schrijven de onderzoekers.

OpenAI trainde Dall-E niet met Laion. Waarmee wél, is in nevelen gehuld, zegt Worring. ‘Misschien bevat hun database ook wel problematisch materiaal, maar onderzoekers kunnen hier niet bij. Laion ligt nu terecht onder het vergrootglas, maar dat is ook het gevolg van het feit dat zij transparant zijn.’

Maas in de EU-wet

Natali Helberger, hoogleraar recht en digitale technologie aan de UvA, noemt het onderzoek ‘zorgwekkend’, ook met het oog op de zogeheten EU AI Act, de Europese wetgeving voor kunstmatige intelligentie. Na een intensieve lobby van Duitsland en Frankrijk bereikten het Europees Parlement en de lidstaten vorige week een compromis: alleen de grootste modellen, zoals die van OpenAI en Google, moeten aan de strengste eisen voldoen.

‘Juist voor de kleinere modellen is het gratis Laion een realistische keuze, maar zij hoeven niet te bewijzen of hun data is gecontroleerd op de aanwezigheid van bias, haat of illegaal materiaal’, zegt Helberger. En dus ontstaat de ‘vreemde situatie’ dat de Amerikaanse bigtech wél moet voldoen aan de Europese waarden, aldus de hoogleraar. Het incident met Laion is daarmee volgens haar ‘een naar voorbeeld van het gat in de Europese wetgeving’.

Dit artikel is gepubliceerd op de website van de Volkskrant.

© SOPA Images/LightRocket via Gett