Moet je bang zijn om met AI te werken? Absoluut niet. Maar het is wel belangrijk om bewust te zijn van de risico’s, zodat je hier zelf een goede afweging in kunt maken. Maar wat is het risico als je vertrouwelijke informatie in bijvoorbeeld ChatGPT stopt? Kort gezegd: als je gevoelige data in zo’n systeem zet, loop je het risico dat je er de controle over verliest.
“ Behandel een publieke LLM alsof je in een drukbezochte kroeg staat: Alles wat je zegt kan mogelijk door anderen gehoord, onthouden of doorverteld worden. ”
Bart Heesink
Training van een Large language model (LLM)
Een Large Language Model (LLM) zoals ChatGPT of Mistral werkt op basis van patronen die het heeft geleerd uit enorme hoeveelheden tekst. Het model zelf “onthoudt” individuele gesprekken niet zoals een database dat doet, maar het kan tijdelijk gegevens opslaan in het geheugen van een sessie om jouw huidige gesprek logisch te laten verlopen.
Er zijn grofweg twee belangrijke fasen in de training van AI modellen:
- De initiële training: het model wordt vooraf getraind op gigantische datasets (internet, boeken, artikelen, code, etc.)
- Instructie- of fine-tuning: extra training van het model met menselijke input / feedback of specifieke datasets.
Tijdens de training wordt tekst niet letterlijk bewaard zoals in een Word-document. Het model zet de patronen in die tekst om in wiskundige waarden (gewichten) die de kans berekenen dat bepaalde woorden of zinnen bij elkaar horen.
Als je “Leukeleu BV ontwikkelt applicatie voor Bedrijf X” invoert wordt dit niet één op één opgeslagen als tekst. Het wordt omgezet naar getallen/tokens die samen “leren” door te kijken hoe groot de kans is dat als ze deze woorden tegenkomen, welke andere woorden dan volgen.
Zo kan het model straks vergelijkbare zinnen maken, zonder jouw exacte invoer te onthouden. Maar als je iets unieks en opvallends invoert, kan het patroon daarvan wel terugkomen in output.
Waar wordt de ingevoerde data opgeslagen?
Waar de ingevoerde data wordt opgeslagen hangt af van de aanbieder en de instellingen. Bij publieke AI-diensten kan jouw input tijdelijk worden opgeslagen op servers van de aanbieder (vaak in de VS of wereldwijd verspreide datacenters). Deze data kan soms worden gebruikt voor modelverbetering (mits toegestaan door hun privacybeleid). Bedrijfs- of enterprise versies (zoals ChatGPT Enterprise, Azure OpenAI, Mistral Private) beloven dat deze input niet wordt gebruikt voor training, en dat de data alleen in die sessie of binnen een afgesproken retentieperiode wordt bewaard.
Let op: Dit is de theorie… Maar zoals vaak bij deze beweringen en beloftes worden deze ook vaak geschonden in de praktijk.
Wordt mijn data gebruikt om het model te trainen?
Bij de meeste gratis of standaard AI diensten wordt jouw data gebruikt om het model te trainen tenzij je het uitschakelt of het beleid anders zegt. Bij enterprise- of API-producten wordt de input meestal niet gebruikt voor training, tenzij je daar expliciet toestemming voor geeft.
Als data wordt gebruikt voor training, kan het in theorie terugkomen in andere outputs. Niet letterlijk als "copy-paste", maar in samengevatte of anders geformuleerde vormen. Dit risico is nog groter bij unieke of opvallende gegevens, zoals geheime productnamen, juridische documenten of interne strategieën.
Wat zijn de praktische risico’s?
Voor bedrijven
- Verlies van IP: unieke ideeën of code kunnen “uitlekken” naar een LLM
- Datadiefstal of lek: gevoelige bedrijfsinformatie kan op servers buiten je controle komen te staan
- Compliance-issues: mogelijk overtreding van AVG, contracten of NDA’s
Voor individuen
- Privacy-schending: persoonlijke gegevens kunnen in datasets belanden
- Identiteitsfraude: gevoelige PII kan misbruikt worden
- Onbedoeld delen: privégesprekken of vertrouwelijke documenten kunnen extern toegankelijk worden.
Basisregels voor verantwoord gebruik van AI
- Voer geen vertrouwelijke of identificeerbare data in, in publieke LLM’s
- Anonimiseer gegevens voordat je ze deelt
- Controleer het privacybeleid van de aanbieder
- Gebruik enterprise-versies met duidelijke contracten over data-opslag en verwerking
- Zet “modelverbetering” uit als dat kan
More articles
- Experimenteren met Vibe Coding: een nieuwe manier van werken
- Hoe Leukeleu’s bijdrage aan open source jouw digitale beveiliging en privacy versterkt
- django-hidp: A Complete Authentication System for Django Developers
- Digital sovereignty
- Waarom AI ons niet gaat vervangen
- Van Technical Debt naar Sustainable Development
- ISO 27001 certificering vervangt hoop door houvast
- Python & Django