Datastromen voor generatieve AI schenden massaal onze privacy

Bedrijven verzamelen enorme hoeveelheden online gegevens zonder onze toestemming. Ze gebruiken deze data om generatieve kunstmatige intelligentie (GenAI) te bouwen. Deze aanpak maakt een grootschalige inbreuk op onze privacy mogelijk. Hierdoor zijn deze systemen van meet af aan onrechtmatig, stelt Amnesty International vandaag in nieuw onderzoek.

In het rapport Unlawful by Design: Exposing the Human Rights Costs of Generative AI documenteert Amnesty International ernstige risico’s bij het grootschalig ‘scrapen’ (automatisch gegevens van internet halen) en verwerken van data. De gegevens worden gebruikt om AI-systemen te bouwen en te trainen. Het gaat daarbij om schendingen van het recht op privacy, nadelige gevolgen voor het milieu en risico’s voor kwetsbare gemeenschappen.

“Bedrijven over de hele wereld leveren generatieve AI-producten onder het mom van efficiëntie en verfijning, maar in werkelijkheid houden deze systemen massale inbreuken op de privacy in stand”, zegt Likhita Banerji, hoofd van het Algorithmic Accountability Lab bij Amnesty International. “Bedrijven verzamelen persoonsgegevens, zoals afbeeldingen en activiteiten op sociale media door onrechtmatige webscraping. Dat is een geautomatiseerd proces om gegevens van websites te halen, om daarmee AI-modellen te trainen.”

Amnesty International onderzocht de modellen die ten grondslag liggen aan enkele van de populairste, openbaar beschikbare, generatieve AI-tools, waaronder GPT 3 van Open AI, Gemini van Google, Llama van Meta, DeepSeek en tools van Midjourney en Stable Diffusion.

Raciale, gendergerelateerde en culturele vooroordelen

Dergelijke systemen draaien op het onttrekken van informatie uit miljarden openbare online berichten en afbeeldingen, vaak zonder de uitdrukkelijke toestemming van de personen die erin voorkomen of ze maakten.

Dit vormt een inbreuk op de privacy. En terwijl de datasets waarop AI-modellen draaien, steeds groter worden, nemen de risico’s ervan toe. Zo wordt de aanwezigheid van haatdragende en discriminerende inhoud versterkt, evenals negatieve stereotypen en vooroordelen, vooral op het gebied van ras en gender.
Raciale, gendergerelateerde en culturele vooroordelen zijn kenmerken van generatieve AI-systemen. Dit komt omdat trainingsdata die voornamelijk van het internet worden gehaald, vervuild zijn met vooroordelen uit de echte wereld. Dit schaadt kwetsbare groepen.

Bovendien vormen generatieve AI-systemen een risico voor het recht op vrijheid van gedachte. Ze kunnen namelijk de gedachten van gebruikers en hun persoonlijke overtuigingen beïnvloeden, door continue suggesties te maken voor hoe gebruikers hun zin kunnen afmaken.

“Bedrijven hoeven deze keuzes niet te maken. We moeten de bewuste ontwerpkeuzes van bedrijven ter discussie stellen, die generatieve AI-systemen bouwen op basis van trainingsdata”, zegt Banerji. “Het is een van de meest schandalige praktijken van AI-bedrijven die de mensenrechten negeren. Dit moet dringend worden aangepakt. Als overheden nu ingrijpen, is er een andere technologische koers mogelijk.”

Opkomst generatieve AI ten koste van kwetsbare gemeenschappen

De schaal en snelheid waarmee generatieve AI-bedrijven zich ontwikkelen leidt tot een complexere infrastructuur en hogere milieukosten. De hogere verwerkingsbehoeften van grotere modellen vereisen energie-intensievere chips, grotere datacenters en daardoor meer energie en water.

De productie van generatieve AI heeft vaak een negatieve impact op gemeenschappen die toch al in de hoek zaten waar de klappen vallen. Bedrijven exploiteren de grond en hulpbronnen van deze gemeenschappen om datacenters te bouwen.

Google stelde in zijn eigen duurzaamheidsverslag uit 2024 een schokkende stijging vast van 48 procent in de broeikasgasemissies sinds 2019. Deze valt toe te schrijven aan de uitstoot van datacenters en de toeleveringsketen. Op dezelfde manier steeg de uitstoot van Microsoft tussen 2020 en 2024 met 29 procent door datacenters die AI-ondersteunende processen uitvoeren.

De Cerrillos-gemeenschap in Chili en de Querétaro in onder meer Mexico en Arizona in de Verenigde Staten verzetten zich tegen datacenters in hun regio en het intensieve gebruik van de hulpbronnen bij de productie van generatieve AI. Hun regio wordt al zwaar getroffen door droogte en elektriciteitstekorten.

Onderzoeksproces

Amnesty International vroeg Google, OpenAI, Meta, Stability AI, Midjourney en DeepSeek om een reactie op het onderzoek. Daarin stelt Amnesty dat de modellen van de bedrijven afhankelijk zijn van onwettige ‘webscraping’, naast vele andere, daaraan gerelateerde mensenrechtenkwesties.

Amnesty International vroeg ook Intel en VMware om een reactie, specifiek met betrekking tot discriminatierisico’s, en wilde van Google, Microsoft en Amazon weten hoe deze bedrijven denken over de milieuschade van hun generatieve AI-systemen en de bijbehorende infrastructuur. Tot nu toe reageerden alleen Microsoft, Amazon, Intel, OpenAI en Meta. Een samenvatting van hun reacties is opgenomen in het rapport.

Oproep Amnesty

Amnesty International roept staten op om op zichzelf staande generatieve AI-systemen te verbieden die zijn gebouwd met ‘webscraping’. Bedrijven moeten onmiddellijk stoppen met het ‘scrapen’ van persoonsgegevens voor AI-trainingsdoeleinden, zonder dat daar toestemming voor is. Staten moeten bedrijven ter verantwoording roepen voor hun betrokkenheid bij eventuele mensenrechtenschendingen die verband houden met hun ontwerp- en zakelijke keuzes.

Achtergrond

Amnesty biedt met haar onderzoek een mensenrechtenanalyse van de ‘datapijplijn’ die generatieve AI-producten aandrijft, inclusief de fasen van het verzamelen, analyseren en verwerken van gegevens, die cruciaal zijn voor de algehele werking van deze systemen. Concreet betekent dit dat wordt ingezoomd op de parameters en implicaties van ontwerpkeuzes die zijn gemaakt met betrekking tot de trainingsgegevens van generatieve AI-modellen. Hierbij ligt de focus op methoden en bronnen van gegevensverzameling, gegevensverwerking, schaalbaarheid van modellen en gegevensoutput.

Amnesty International definieert op zichzelf staande generatieve AI-tools als producten die uitsluitend en specifiek zijn ontwikkeld, ingezet en op de markt gebracht vanwege hun generatieve AI-mogelijkheden en met hun eigen gebruikersomgeving. Denk daarbij aan AI-chatbots, beeld-/video-/audio-/tekstgeneratoren, enzovoort. Dit omvat geen producten waarbij generatieve AI een toegevoegde functie of eigenschap is binnen een groter productpakket, zoals tekstverwerkingssoftware met optionele generatieve AI-functies.