AI Act: foundation models en general purpose AI
Het Europees Parlement heeft op 14 juni de AI Act aangenomen. Dit betekent nog niet dat de Europese AI regels er al zijn, want nu gaan het parlement, de Europese Commissie en de Raad (van ministers) met elkaar in onderhandeling (de “triloog”). Er zijn behoorlijk wat verschillen tussen de versies. Zo hebben de recente ontwikkelingen op gebied van generatieve AI, Large Language Models (LLM) en in het bijzonder OpenAI’s ChatGPT de regels behoorlijk beïnvloed.
We moeten nog maar zien wat er in de uiteindelijke versie van de AI Act terechtkomt. Komen bijvoorbeeld de definities “foundation model” en “general purpose AI” ook in de definitieve tekst? Het ligt wel voor de hand dat de wetgever er iets van laat terugkomen. In dit blog de essentie van beide begrippen.
Wat zijn foundation models en general purpose AI?
Er worden nieuwe verplichtingen voorgesteld voor foundation models als OpenAI’s GPT-4. OpenAI omschrijft GPT-4 als een multimodal LLM Om even kort bij stil staan, want er komen steeds weer nieuwe AI 'paradigma' bij. LLM: "are computer models capable of analyzing and generating text. They are trained on a vast amount of textual data to enhance their performance in tasks like text generation and even coding... Examples of text-only LLMs include GPT-3, BERT, RoBERTa, etc." En Multimodal LLMs: "combine other data types, such as images, videos, audio, and other sensory inputs, along with the text. The integration of multimodality into LLMs addresses some of the limitations of current text-only models and opens up possibilities for new applications that were previously impossible." Meer info: hier.die tekst als input accepteert, en tekst (en in de toekomst ook afbeeldingen) als output kan genereren. Hetzelfde (GPT-4) model kan dus in verschillende AI systemen worden geïntegreerd, daarom ook het woord “foundation”. Een voorbeeld van zo’n AI systeem is ChatGPT, waaraan GPT aan de basis ligt als model. GPT-4 is in feite dus een basismodel welke kan worden gefintuned voor een specifieke AI use-case. Bijvoorbeeld:- Vertalen van teksten van Nederlands naar English;
- Beantwoorden van vragen (ChatGPT dus...);
- Schrijven van een essay (of enkel de outline);
- Genereren van sourcecode;
- Analyseren van medische teksten.
- enz. enz.
Aldus Sam Altman (CEO OpenAI) in "Planning for AGI and beyond" over AGI: "Our mission is to ensure that artificial general intelligence—AI systems that are generally smarter than humans—benefits all of humanity."
Daarentegen legt het parlement met general purpose AI de nadruk op het brede toepassingsbereik ten opzicht van een 'gewone AI', en dus niet perse het niveau van intelligentie (zoals bij AGI):"‘general purpose AI system’ means an AI system that can be used in and adapted to a wide range of applications for which it was not intentionally and specifically designed."Een general purpose AI kan je wellicht nog het beste onderscheiden van een “narrow AI” die is ontwikkeld voor een specifieke taak. Voorbeelden van specifieke narrow AI systemen: spraakherkenning, aanbevelingssystemen, beeldherkenning, of het spelen van een spel zoals Go Google's AlphaGo AI kan bijvoorbeeld een professionele Go speler verslaan, maar verder kan deze AI geen andere taken uitvoeren.. Een general purpose AI heeft dus niet een specifiek doel - zoals bij een narrow AI - , maar is geschikt voor meerdere doeleinden. ChatGPT is een voorbeeld van een general purpose AI systeem.Verplichtingen…?
De AI Act kenmerkt zich door een risico-gebaseerde aanpak. Hoe hoger het risicoprofiel van AI, hoe meer verplichtingen (voor de aanbieder of de 'deployer'). Dat is bij een general purpose AI als ChatGPT niet anders. Maar! Het onderliggende foundation model wordt als risicovol beschouwd. Er gelden daarom aparte plichten voor aanbieders van zo'n model. GPT-4 en andere modellen moet namelijk voldoen aan het nieuwe artikel 28b:- Risicobeoordeling Long story short: Het aanbieden van een foundational model vereist dus een specifiek 'plan-do-check-act' cyclus gericht op bescherming van grondrechten en andere belangrijke zaken.: Als uitgangspunt geldt dat een foundation model mogelijke risico’s met zich meebrengt op gebied van veiligheid, het milieu (schade), de rechtsstaat en andere fundamentele rechten. Dit principe eist dat dit soort risico's gedurende de ontwikkeling en ook na livegang steeds worden geïdentificeerd en opgelost. Eventuele restrisico’s moeten worden gedocumenteerd. Dit is bijvoorbeeld het geval bij het op de markt brengen van een LLM, welke kan worden gebruikt om fake news te maken.
- Data Governances: Er moet een (gedocumenteerde) gedachte zijn over data ingestion. Volgens de wetgever is niet elke gegevensbron geschikt. Er moet bijvoorbeeld worden gewaakt voor eventuele bias veroorzaakt door een databron die ten grondslag ligt aan het model.
- Prestaties en beveiliging: Bij de ontwikkeling van foundation models moet er extra aandacht zijn voor adequate prestaties, voorspelbaarheid en interpreteerbaarheid. Daarnaast moet er sprake zijn van optimale (cyber)beveiliging welke aantoonbaar is gedocumenteerd en getest. Het borgen van de prestatie moet bovendien met behulp van onafhankelijke experts plaatsvinden.
- Duurzaamheid en milieu: Bij de ontwikkeling van foundation models moeten normen voor het verminderen van energieverbruik, grondstoffen- en afvalverbruik worden toegepast. Dit omvat ook de meting en registratie van het energie- en grondstoffenverbruik van de toepassing.
- Documentatie: Er moet uitgebreide technische documentatie en begrijpelijke gebruiksinstructies worden opgesteld om downstream providers in staat te stellen aan hun eigen transparantieverplichtingen te voldoen.
- Kwaliteitsmanagement: Er moet een kwaliteitsmanagementsysteem worden opgezet om de naleving van alle eisen te waarborgen en te documenteren.
- State-of-the-art waarborgen: zorgen dat het foundation model is ontworpen met extra state-of-the-art waarborgen, welke zijn gericht op het voorkomen dat gegenereerde content het EU recht schendt.
- Referenties auteursrecht: eventuele auteursrechtelijke werken (bijvoorbeeld een boek of een schilderij) vermelden bij de gegenereerde inhoud. Dit terwijl de gegenereerde inhoud nog steeds een schending van het auteursrecht kan opleveren.
Mijn gedachten
Het is logisch dat de razendsnelle ontwikkelingen op gebied van AI hun weg in de AI Act hebben gevonden.Foundation models moeten voldoen aan extra verplichtingen. Die verplichtingen gelden wel downstream voor de aanbieders van de (general purpose) AI die ze geïntegreerd, maar de last ligt bij de aanbieders van de modellen.Er zijn bij mij wel een hoop vragen...:- Is het verstandig om de huidige 'GPT-trend' vast te leggen in de wet?
- Moeten we dit soort AI niet techniekneutraal proberen te regelen?
- Want wie zegt dat foundation models als AI paradigma over 2-3 jaar niet weer achterhaald zijn?
- Oké, dit ligt niet voor de hand, maar de mogelijkheid is er zeker. Ontwikkelingen gaan snel.
- En wat dan? Weer een nieuwe wet?