De black box-paradox: hoe leg je een AI-beslissing uit als de AFM het vraagt?

Stel: een hypotheekadviseur gebruikt een AI-agent om aanvragen voor te beoordelen. De agent wijst een aanvraag af. De klant vraagt waarom. De adviseur kijkt in zijn systeem en ziet een beslissing met een toelichting van twee regels. Hij leest het voor. De klant accepteert het niet, dient een klacht in bij Kifid, en even later valt er een brief van de AFM op de mat met vragen over het gebruikte algoritme.

Wat zegt de adviseur dan?

Dit is geen hypothetisch scenario. Het is de juridische realiteit waar verzekeraars, volmachten en adviseurs nu al in opereren — en de meeste van hen hebben er geen sluitend antwoord op.

De wettelijke driehoek

Drie kaders raken hier elkaar. De Wft (Wet op het financieel toezicht) eist motivering bij beslissingen die de klant raken, en kent een zorgplicht die niet verdwijnt omdat een algoritme de beslissing genomen heeft. De AVG bepaalt in artikel 22 dat een betrokkene recht heeft op menselijke tussenkomst bij geautomatiseerde besluitvorming met rechtsgevolgen — en een afgewezen verzekering of hypotheek valt daar onverkort onder. En sinds de EU AI Act (Verordening 2024/1689) zijn AI-systemen voor risicobeoordeling in levens- en zorgverzekeringen geclassificeerd als hoog-risico, met bijbehorende eisen aan transparantie, logging, menselijk toezicht en documentatie.

Op papier weten we wat er moet: uitlegbaarheid, traceerbaarheid, menselijke controle. In de praktijk loopt dat vast op een ongemakkelijk feit — moderne taalmodellen zijn niet deterministisch en kunnen hun eigen redenering niet altijd reconstrueren.

Drie patronen in de markt

In de praktijk zien we drie manieren waarop financiële dienstverleners hier nu mee omgaan, elk met eigen problemen.

Het eerste model is AI als voorbereider. De agent leest het dossier, vat het samen, stelt een conceptbeslissing voor. Een acceptant of adviseur tekent uiteindelijk. Dit is juridisch het schoonste, maar de winst zit hier vooral in tijdwinst — niet in volumeverwerking. Voor partijen die honderden aanvragen per dag verwerken is dit lastig schaalbaar.

Het tweede model is AI binnen een regelkader. De agent mag autonoom beslissen, maar alleen binnen vooraf gedefinieerde grenzen. Buiten die grenzen volgt automatisch escalatie. Dit is in feite een klassieke rule engine met een taalmodel als interface. Uitlegbaarheid is hier hoog — je kunt terug naar de regel die de beslissing veroorzaakte — maar de echte intelligentie van het taalmodel wordt slechts gedeeltelijk benut.

Het derde model is AI met post-hoc verklaring. De agent neemt zelfstandig beslissingen en genereert achteraf een toelichting. Hier zit het juridische gat: die toelichting beschrijft niet noodzakelijk hoe het model tot zijn output kwam, maar wat het model achteraf als plausibele redenering construeert. Onderzoek naar zogenoemde chain-of-thought faithfulness, onder meer door Anthropic en academische groepen, laat zien dat dit twee verschillende dingen zijn. Of een toezichthouder dat onderscheid in een handhavingstraject zal accepteren, weet vandaag niemand — want het is in Nederland nog niet uitgeprocedeerd.

Wat de toezichthouders nu wel zeggen

De AFM publiceerde in 2024 haar visie op de inzet van AI in de financiële sector, met nadruk op uitlegbaarheid en zorgplicht. DNB werkt aan Good Practices voor AI-risicobeheer, voortbouwend op de eerdere SAFEST-principes (Soundness, Accountability, Fairness, Ethics, Skills, Transparency) uit 2019. EIOPA, de Europese verzekeringstoezichthouder, heeft in 2021 al governance-principes voor AI in de verzekeringssector gepubliceerd en bereidt onder de AI Act aanvullende richtsnoeren voor.

De rode lijn in al deze publicaties: de toezichthouder accepteert AI, maar verwacht dat de financiële instelling op elk moment kan reconstrueren en uitleggen wat er gebeurd is. De vraag is niet of je AI mag gebruiken. De vraag is of je nog steeds verantwoordelijk bent voor wat het doet. Dat antwoord is onveranderd ja.

Wat je nu zou moeten regelen

Drie praktische punten voor wie nu AI inzet of overweegt. Eén: zorg dat elke geautomatiseerde beslissing een audit trail heeft die meer is dan de output zelf — inputdata, modelversie, beslismoment, eventuele regels die getriggerd zijn, en de menselijke check (indien aanwezig). Twee: definieer expliciet welke beslissingen het systeem zelfstandig mag nemen en bij welke afwijkingen verplicht een mens kijkt. Drie: test je uitlegbaarheid niet op je eigen team, maar simuleer een klacht — kan een buitenstaander op basis van het dossier reconstrueren waarom de beslissing zo is gevallen?

Hoe Table Duck hiernaar kijkt

Wij bouwen agents voor verzekeraars en volmachten, en zien dezelfde spanning bij elke klant. Onze keuze is bewust een hybride: het taalmodel doet de intelligentie (lezen, structureren, signaleren), maar de uiteindelijke beslislogica bij zaken die de klant raken loopt door regels die je kunt benoemen en uitleggen. Niet omdat dat de meest geavanceerde oplossing is, maar omdat het de enige is die we vandaag aan een AFM-onderzoeker kunnen uitleggen — en dat is voor nu de belangrijkste eis.

De black box-paradox lost zich niet op door betere modellen. Hij lost zich op door betere architectuur.