ChatGPT: Is diefstal een bug of een feature?

21 december 2023 | AI, Auteursrecht, IT-recht, Privacy

ChatGPT haalt domineert al een hele tijd de krantenkoppen. De advocaten die gefantaseerde rechterlijke uitspraken via ChatGPT verkregen en deze vervolgens citeerden in hun conclusie voor de rechtbank, zijn een voorbeeld uit ons eigen domein. Dit misbruik (of dom gebruik?) van kunstmatige intelligentie (AI) resulteerde in weinig andere schade dan de reputatie van de betrokken advocaten. Nochtans is er een grote groep van mensen beducht voor het doembeeld van potentieel veel grotere schade. In mei 2023 ondertekende een groep van 350 bedrijfsleiders en wetenschappers een verklaring dat “het beperken van het risico van [menselijk] uitsterven door AI een wereldwijde prioriteit zou moeten zijn”.

AI – zijn de voordelen en de nadelen in balans?

Hoewel de risico’s van AI groot zouden zijn, zijn de potentiële voordelen dat immers ook, waardoor sommigen schijnbaar tegenstrijdige acties ondernemen.

Bill Gates, één van de ondertekenaars van de verklaring, heeft onlangs geïnvesteerd in Inflection AI, een start-up die werkt aan technologie die vergelijkbaar is met die van ChatGPT. En terwijl Microsoft meer dan 10 miljard dollar heeft geïnvesteerd in ChatGPT, hebben twee van zijn C-level leidinggevenden mee de dreigende verklaring over het risico van uitsterven van de mensheid ondertekend. Elon Musk mag in het rijtje overigens zeker niet ontbreken: terwijl hij opriep voor een “bevriezing” van de AI-ontwikkelingen, was hij reeds bezig met de oprichting van een ChatGPT-concurrent.

En het Europese perspectief op AI?

De Europese Unie, toonaangevend op het gebied van privacyregulering en daardoor gesterkt in haar rol als technologie politie in deze wereld, probeert al enige tijd een algemeen regelgevend kader te ontwikkelen voor de inzet van AI. De European Data Protection Board heeft zelfs een speciale taskforce opgezet voor ChatGPT. Het EU-wetgevingsproces is echter enorm complex, en we moeten deze allesomvattende AI-regelgeving niet verwachten voor 2026.

De verdere ontwikkeling van AI zal dus wellicht vele malen sneller zijn dan de reactie van regelgevers. Hoe groot is dan de kans dan dat bestaande wetgeving met succes wordt gebruikt om de ontwikkeling van AI in goede banen te leiden?

Ook al stelt technologie ons zeker en vast voor nieuwe uitdagingen, er zijn zeker ook heel wat beproefde regelgevende kaders die vandaag al bestaan en die we kunnen toepassen. Laat ons bijvoorbeeld eens een blik werpen op auteursrechten, en gegevensbescherming. Twee juridisch netjes geregelde materies – is de toepassing ervan op AI problematisch?

AI onder vuur in de Amerikaanse rechtbanken

Laat ons hiervoor gaan spieken in het walhalla van de rechtszaken en de class actions, de Verenigde Staten. We kunnen immers theoretisch stilstaan en bedenkingen maken bij de toepassing van het auteursrecht en het gegevensbeschermingsrecht op AI, maar uiteindelijk zullen het de rechtbanken zijn die dergelijke toepassing zullen toetsen aan échte geschillen.

Enige tijd geleden werden in Californië twee class action lawsuits aangespannen waarin OpenAI, de eigenaar van Chat GPT, als gedaagde werd genoemd. Dergelijke zaken kunnen ons een waardevol inzicht geven in de vraag hoever we kunnen springen met de huidige regels die helemaal niet voorzien waren op een technologische revolutie zoals AI.

Tremblay v. OpenAI (auteursrecht)

De klacht in Tremblay v. Open AI., Inc. is bijna volledig gebaseerd op het auteursrecht. De eisers in deze zaak zijn auteurs van boeken, en die dus over het klassieke auteursrecht beschikken dat hun creatieve resultaten moet beschermen.

De klacht legt uit dat ChatGPT een “groot taalmodel” (LLM) is dat wordt getraind door enorme hoeveelheden tekst te kopiëren als trainingsdataset. Door natuurlijk expressief taalgebruik te leren van deze dataset, kan het LLM reageren op vragen op een manier die van een mens afkomstig lijkt te zijn.

De klacht in de zaak Tremblay haalt een paper uit 2018 aan waarin een vroege versie van ChatGPT wordt geïntroduceerd en waarin staat dat het meer dan 7.000 boeken gebruikte als onderdeel van de trainingsdataset. De klacht schetst vervolgens een spoor van aanwijzingen die suggereren dat latere versies van ChatGPT een of meer “schaduwbibliotheken” gebruikten die illegaal gekopieerde boeken bevatten en deze gebruikten in de ChatGPT trainingsdataset. Deze bibliotheken bevatten de tekst van ruwweg 300.000 boeken.

De klacht van Tremblay zegt dat ChatGPT in staat was om zeer nauwkeurige samenvattingen van boeken geschreven door de klagers te genereren, wat suggereert dat het ze volledig had opgenomen. Op die basis vordert de aanklacht schadevergoeding namens alle auteurs wier boeken illegaal werden gekopieerd als onderdeel van de ChatGPT trainingsdataset.

Deze klacht lijkt relatief eenvoudig en ongecompliceerd, al haalt OpenAI alles uit de kast om te voorkomen dat de rechtbank nog maar zou overwegen om na te denken over de grond van de zaak. Omdat de eisers de rechtmatigheid van ChatGPT niet in vraag stellen, maar enkel een faire vergoeding willen voor het gebruik van hun werken, staat vast dat bij succes dit de ondernemerskost voor ChatGPT substantieel zal verhogen, al lijkt het voorlopig er niet toe te leiden dat het bedrijf daardoor afgeremd wordt.

P.M. v. OpenAI (gegevensbeschermingsrecht)

De klacht in P.M. v. Open AI is echter reeds een stuk ambitieuzer, én ook complexer. Het is ook een groepsgeding, maar het is voornamelijk gebaseerd op schendingen van lokale en federale privacywetten in de Verenigde Staten.

De klacht beschrijft 16 personen van wie de aanspraak op privacy zou zijn geschonden door ChatGPT. Deze lange klacht begint als volgt:

  1. Op 19 oktober 2016 voorspelde Stephen Hawking, hoogleraar theoretische natuurkunde aan de Universiteit van Cambridge: “Succes in het creëren van AI zou de grootste gebeurtenis in de geschiedenis van onze beschaving kunnen zijn. Maar het zou ook de laatste kunnen zijn, tenzij we leren hoe we de risico’s kunnen vermijden.”
  2. De toekomst die professor Hawking voorspelde is in slechts zeven korte jaren aangebroken. Door op grote schaal gestolen en verduisterde persoonlijke informatie te gebruiken, hebben Gedaagden krachtige en zeer winstgevende AI gecreëerd en deze in de wereld losgelaten zonder rekening te houden met de risico’s. Door dit te doen hebben Gedaagden een AI-wapenwedloop gecreëerd waarin Gedaagden en andere Big Tech bedrijven de maatschappij in een vliegtuig laten stappen dat … minstens 10% kans heeft om neer te storten en iedereen aan boord te doden.
  3. De minachting van gedaagden voor privacywetten wordt alleen geëvenaard door hun minachting voor het potentieel catastrofale risico voor de mensheid. Tekenend voor zowel het ultieme risico als de openlijke veronachtzaming door de gedaagden is deze uitspraak van de CEO van gedaagde OpenAI, Sam Altman: “AI zal waarschijnlijk leiden tot het einde van de wereld, maar in de tussentijd zullen er geweldige bedrijven zijn.”

Nog steeds volgens de klacht zou ChatGPT’s training dataset, naast de boeken beschreven in de Tremblay klacht, eveneens Common Crawl, WebTex2 en Wikipedia bevatten. De klacht geeft deze informatie over de eerste twee datasets:

  • Common Crawl is een biljoen woorden tellende verzameling van tekst en metadata van webpagina’s en websites die over een periode van 12 jaar zijn geschraapt; en
  • WebTex2 werd gebouwd door elke webpagina te schrapen waarnaar werd gelinkt op Reddit en die minstens drie “likes” had gekregen (of “Karma” stemmen, om Reddit terminologie te gebruiken). Deze links bevatten tekst, video’s en audio van YouTube, Facebook, TikTok, Snapchat en Instagram. In de klacht wordt beweerd dat dit schrapen doorgaat.

De privacygevaren van Common Crawl worden geïllustreerd door het verhaal van een vrouw die kon vaststellen dat haar privé medisch dossier – inclusief foto’s van haar lichaam die genomen werden terwijl ze een behandeling onderging voor een zeldzame ziekte – online terechtkwam en verzameld werd in de Common Crawl dataset.

We zouden het probleem kunnen relativeren als zijnde een probleem van gebrekkige data uit het verleden.

Maar de klacht beschrijft verder een voortdurende aanvulling van gegevens en tekst uit meer algemene bronnen. ChatGPT is immers geïntegreerd in verschillende Microsoft-producten die miljoenen gebruikers hebben, waaronder Teams, Bing en Cortana. Volgens de klacht leidt de werking van deze producten tot het verzamelen van gegevens van miljoenen mensen die ChatGPT niet eens gebruiken. Deze gegevens worden in ChatGPT ingevoerd zodat dit product voortdurend kan evolueren.

De integratie van ChatGPT in andere producten houdt echter niet op bij Microsoft-producten. Het is geïntegreerd in Amazon, Expedia, Instacart, Google, Zillow, OkCupid (een dating app) en vele andere producten. Op die manier, zo beweren de aanklagers, is ChatGPT een virtuele spion geworden die de persoonlijke gegevens, kliks, zoekopdrachten, inputs en persoonlijke informatie van miljoenen nietsvermoedende individuen die misschien een Instacart gebruiken om boodschappen te doen, een telegezondheidsbedrijf om een doktersafspraak te maken of gewoon Expedia doorbladeren om vakantieplannen te maken, nauwlettend volgt, opneemt en traint.

Een belangrijk element van de theorie van deze klacht is dat ChatGPT al deze gegevens opneemt om zijn vermogen om mensen na te bootsen te verbeteren, en dat zodra deze opname gebeurt, het onomkeerbaar is. Zo gaan bepaalde rechten die erg kenmerkend zijn voor privacy regelgeving (ook in Europa), waaronder hetrecht om te worden vergeten en het recht om verkeerde informatie te corrigeren, onherroepelijk verloren.

De klacht analyseert het privacybeleid van ChatGPT in detail en doet het af als window dressing in het licht van de aard van ChatGPT.

Bij het beschrijven van de risico’s die ChatGPT met zich meebrengt, vat de aanklacht de benarde situatie samen van een Amerikaanse professor in de rechten die valselijk werd beschuldigd van seksuele intimidatie van een van zijn studenten, waarbij zelfs een “bron” voor de vermeende misdaad werd opgegeven via een nieuwsartikel dat door ChatGPT was verzonnen.

In de aanklacht staat dat “gedaagden dit ‘hallucinatie’ noemen, maar de wereld kent het als laster.”

Sommige van de juridische theorieën die in deze klacht naar voren worden gebracht, lijken de grenzen van hun toepassing op te zoeken. Maar de theorieën die gebaseerd zijn op schendingen van de privacywetten zijn wél behoorlijk steekhoudend.

OpenAI zal waarschijnlijk volhouden dat alle gebruikersgegevens tijdens het trainen van ChatGPT zijn geanonimiseerd. Wellicht zal een hele discussie gevoerd worden over dit anonimiseren. Is het wel echt anonimiseren, of toch eerder pseudonimiseren? Een wereld van verschil, en tegelijk maakt het misschien ook niet zo erg veel uit, vermits het anonimiseren op zich ook een verwerkingsactiviteit is!

Conclusie

Deze rechtszaken tegen OpenAI werpen licht op de complexiteit en de uitdagingen die nieuwe technologieën zoals kunstmatige intelligentie (AI) met zich meebrengen voor het juridische landschap. Ze onderstrepen hoe traditionele juridische concepten en regels onder druk komen te staan in het licht van de snelle ontwikkelingen in technologie.

Deze rechtszaken geven ook inzicht in de bredere maatschappelijke en ethische vraagstukken die AI met zich meebrengt. Ze benadrukken de behoefte aan een dynamische en flexibele juridische aanpak die zowel innovatie bevordert als de rechten en vrijheden van individuen beschermt. Dit vereist mogelijk een heroverweging van traditionele juridische principes en is wellicht een argument om haast te maken met de ontwikkeling van nieuwe wetgeving die specifiek gericht is op AI en haar unieke uitdagingen.

Kortom, de rechtszaken tegen OpenAI vormen een belangrijk voorbeeld van de juridische en ethische dilemma’s die gepaard gaan met geavanceerde technologieën. Ze nodigen uit tot een open en voortdurende dialoog tussen juristen, technologen, beleidsmakers en de maatschappij om te zorgen voor een rechtvaardige en effectieve integratie van AI in onze samenleving.

Terwijl we deze evolutie verder opvolgen, moeten we natuurlijk roeien met de riemen die we hebben. Heb je vragen over de koers die je daarbij moet varen, kan je ons hierover steeds contacteren via hallo@dejuristen.be.

Geschreven door Kris Seyen, Partner deJuristen

Onze diensten

Information Technology

Intellectuele Eigendom

Privacy

e-Compliance