< Terug naar nieuws
De onderzochte modellen zijn beoordeeld op populariteit, beschikbaarheid, toegankelijkheid en herkomst. Hierbij is de keuze gevallen op Meta’s Llama-2, OpenAI’s GPT3.5, 4, en 4.5-turbo en Falcon-40b-Instruct van TII. Elk model is klaargemaakt voor het experiment, bijvoorbeeld door het opzetten van één consistente vraag. Deze is voor elk model licht aangepast om aan het specifieke format van het model te voldoen (zoals het vertalen in het Engels).
Uit de resultaten is te halen dat deze modellen heel wisselvallig zijn, te zien aan de ingekleurde oppervlakte, en ook dat de modellen met name links georiënteerd zijn (zie figuren 1 en 2). Handmatige analyse liet zien dat OpenAI’s GPT modellen zeer snel bereid zijn om antwoord te geven op de stellingen.
Doordat de wijze van training van de modellen niet transparant is, is het niet te zeggen of een model in een andere context een hele andere mening kan geven. Deze black box aanpak maakt het onmogelijk om te achterhalen waarom het model tot bepaalde antwoorden komt. De daaropvolgende bias en inconsistentie in huidige taalmodellen lijkt misschien niet erg, maar het kan grote gevolgen hebben. Grootschalig gebruik van zulke modellen, bijvoorbeeld door derde partijen, die zonder beter weten gebruik maken van zulke taalmodellen kunnen het effect van bias op de lange termijn vergroten.
19 december 2023
Onderzoek TNO en Kieskompas: AI-taalmodellen zijn inconsistent en neigen naar links
Generatieve AI-taalmodellen (‘large language models’) die de stemhulp van Kieskompas invullen komen uit aan de linkerkant van het politieke spectrum. Daarnaast geven de modellen niet consistent antwoord op subjectieve vragen en vertonen ze door kleine veranderingen in de vraag al snel heel ander gedrag.
Dat blijkt uit een experiment van TNO en Kieskompas waarbij ze verschillende taalmodellen de vragen van de stemhulp van het Kieskompas 2023 meerdere malen lieten beantwoorden.
De aanwezigheid van bias (vooringenomenheid) en inconsistentie in huidige taalmodellen lijkt misschien onschuldig, maar de gevolgen kunnen groot zijn. Grootschalig gebruik van zulke taalmodellen kan de effecten van vooroordelen bij mensen op de lange termijn vergroten.
Door de ontwikkeling van generatieve AI zijn Large Language Models de laatste tijd sterk in opkomst, met ChatGPT als meest bekende voorbeeld. Steeds meer mensen gebruiken deze modellen vooral bij zaken waar veel leeswerk aan verbonden is, bijvoorbeeld de verschillende standpunten van onze nationale politieke partijen.
Met deze ontwikkelingen ontstaat ook veel onzekerheid over de huidige capaciteit en kwaliteit van AI, vooral op het gebied van betrouwbaarheid, mogelijke vooringenomenheid, en beperkte consistentie van modellen. Samen met Kieskompas heeft TNO daarom getoetst hoe deze taalmodellen een stemhulp invullen.
Populaire modellen
De onderzochte modellen zijn beoordeeld op populariteit, beschikbaarheid, toegankelijkheid en herkomst. Hierbij is de keuze gevallen op Meta’s Llama-2, OpenAI’s GPT3.5, 4, en 4.5-turbo en Falcon-40b-Instruct van TII. Elk model is klaargemaakt voor het experiment, bijvoorbeeld door het opzetten van één consistente vraag. Deze is voor elk model licht aangepast om aan het specifieke format van het model te voldoen (zoals het vertalen in het Engels).
Modellen kunnen naast direct een vraag beantwoorden ook gebruik maken van context. Het toevoegen van context geeft modellen een indicatie hoe de gebruiker de antwoorden graag terug wil zien, waardoor soms beter resultaat teruggegeven wordt. Vandaar dat elk model zowel getoetst is met en zonder contextuele toevoegingen (zie ook een van de voorbeelden in de tabel met in het groen de meegegeven context. Alle modellen hebben dezelfde contextuele vraag gekregen). Ze begrijpen bijvoorbeeld beter wat voor antwoord er van ze verwacht worden als ze al een voorbeeld gehad hebben van een vraag met een antwoord dat binnen de keuzemogelijkheid van het Kieskompas valt ("helemaal mee eens", "mee eens", "neutraal", "niet mee eens", "helemaal niet mee eens" en "geen mening").
De antwoorden zijn door Kieskompas vertaald in coördinaten die TNO over het politiek landschap van Nederland heeft gelegd zoals te zien in de figuren. Elke beurt van een model dat minimaal 10 antwoorden heeft gegeven, is hier te zien.
Wisselvallige antwoorden
Uit de resultaten is te halen dat deze modellen heel wisselvallig zijn, te zien aan de ingekleurde oppervlakte, en ook dat de modellen met name links georiënteerd zijn (zie figuren 1 en 2). Handmatige analyse liet zien dat OpenAI’s GPT modellen zeer snel bereid zijn om antwoord te geven op de stellingen.
Meta’s Llama geeft beter aan dat het daadwerkelijk een model is dat antwoord geeft. Maar zodra context gegeven wordt, geeft ook Llama altijd antwoord op de vraag. Falcon is nog het meest voorzichtig, maar ook met gegeven context door het geven van een voorbeeldvraag verandert het gedrag van dit model aanzienlijk en geeft die wel zijn mening (zoals ook te zien hieronder).
TII en Meta hebben hun modellen getraind om voorzichtiger te zijn en om controversiële vragen niet te beantwoorden. Bovendien zijn de modellen van OpenAI consistenter; als je ze meerdere keren dezelfde vraag voorlegt krijg je vaker hetzelfde antwoord dan bij de geteste concurrenten.
Black box
Doordat de wijze van training van de modellen niet transparant is, is het niet te zeggen of een model in een andere context een hele andere mening kan geven. Deze black box aanpak maakt het onmogelijk om te achterhalen waarom het model tot bepaalde antwoorden komt. De daaropvolgende bias en inconsistentie in huidige taalmodellen lijkt misschien niet erg, maar het kan grote gevolgen hebben. Grootschalig gebruik van zulke modellen, bijvoorbeeld door derde partijen, die zonder beter weten gebruik maken van zulke taalmodellen kunnen het effect van bias op de lange termijn vergroten.
Mede daarom gaat Nederland een eigen open taalmodel ontwikkelen: GPT-NL. Dit model is nodig voor het ontwikkelen, versterken en bestendigen van de digitale soevereiniteit. TNO, NFI en SURF gaan samen het model ontwikkelen om zo een belangrijke stap te zetten richting transparant, eerlijk en toetsbaar gebruik van AI naar Nederlandse en Europese waarden en richtlijnen en met respect voor het eigenaarschap van data.
Lees het volledige artikel en de resultaten van het onderzoek op de website van TNO.
Vergelijkbaar >
Vergelijkbare nieuwsitems
4 november
Google maakt AI-watermerktool SynthID openbaar
Google heeft zijn watermerktool SynthID, die AI-gegenereerde content identificeert, gratis beschikbaar gesteld voor ontwikkelaars en bedrijven. Deze tool, ontwikkeld door DeepMind, embedt digitale watermerken in teksten, audio, afbeeldingen en video's, zonder de kwaliteit of ervaring van de content te beïnvloeden.
Lees meer >
4 november
Mens en AI: een goed team? Onderzoek pleit voor duidelijke taakverdeling
Nu AI in steeds meer vakgebieden wordt ingezet, rijst de vraag hoe goed deze samenwerking tussen mens en machine werkelijk is. Wetenschappers van MIT concluderen dat mens en AI soms samen minder goed presteren dan afzonderlijk. Toch zien zij kansen wanneer de taakverdeling helder is.
Lees meer >
1 november
Geert Wissink jurylid bij Data Science Top 50 Event
Op 14 november zal Geert Wissink, zakelijk directeur van Amsterdam AI, als jurylid optreden bij het Data Science Top 50 event.
Lees meer >