Sinds 2005

Betere ICT, betere bedrijfsprocessen

Domweg datamining?

(On)mogelijkheden van datamining (in de loonaangifteketen)

Het verhaal dat ik hier ga vertellen is niet beperkt tot de loonaangifteketen, het geldt algemeen voor datamining en andere data science technieken. Ik beperk me hier echter tot de loonaangifteketen omdat ik me hiervan de meest sprekende voorbeelden voor de geest kan halen.

Ik begin hier eerst met beknopte achtergrond informatie die nodig kan zijn voor de begripvorming.

De polisadministratie is een grote vergaarbak van alle loonaangiftegegevens die de afgelopen jaren over werknemers, uitkerings- en pensioengerechtigden zijn binnengekomen, zie Wat is de loonaangifteketen?. Je zou denken dat dit een prachtige gegevensbak is voor datamining.

Deels is dat zo, maar met datamining is het net als met de meeste andere zaken, je moet er goed bij blijven nadenken.

Brett vor kopf.

Mogelijkheden van datamining

Je kunt op deze bak gegevens leuke vraagstellingen loslaten en met datamining oplossen. Is er bijvoorbeeld een significant verschil in beloning tussen mannen en vrouwen? En hoe zit dat als je leeftijd erbij betrekt? Of nationaliteit? Zijn er bepaalde postcodegebieden waar veel minder of veel meer wordt verdiend dan gemiddeld? Neemt de beroepsbevolking toe, en het aantal pensioengerechtigden? Passen uitzendbureaus de fase-indeling goed toe? En hoe zit het met de toepassing van hoge/lage premiepercentages in bijvoorbeeld de horeca?

Dit zijn allemaal vragen die door het CBS met statistische analyse- en datamining technieken worden opgelost. Ook het UWV en de Belastingdienst houden zich met een aantal van dit soort vraagstukken bezig.

Kun je dan op alle loonaangiftegegevens datamining toepassen? Nou, nee.

Onmogelijkheden van datamining

Ik heb het genoegen mogen smaken om een aantal jaren analyses te mogen maken op de polisadministratie. Doordat ik al bijna 5 jaar ook inhoudelijk met de loonaangifteketen te maken heb gehad kan ik goed inschatten wat je wel en niet kunt doen met deze gegevens.

Laten we stellen dat we datamining toepassen en dat wat het vaakst wordt ingevuld goed is en dat de overige opties fout zijn.

Voorbeeld: ambtenaren

Dan kom je bij de code Soort Inkomstenverhouding (ik zal u niet met de precieze betekenis vermoeien aangezien dit niet relevant is) 11 (ambtenaar volgens de ambtenarenwet 1928) in de meeste gevallen de Code Arbeidsverhouding (de betekenis van deze naam is ook niet relevant) 13 (ambtenaar / ABP-er) tegen.

Dat zou betekenen dat een andere veelvoorkomende combinatie code Soort Inkomstenverhouding (SrtIV) ambtenaar met Code Arbeidsverhouding (CdAard) 18 (publiekrechtelijke aanstelling) fout zou moeten zijn. Dit is echter pertinente onzin.

Ik heb afgelopen paar jaar met een expertgroep (juristen en fiscalisten van UWV en de belastingdienst en met een inhoudelijk deskundige van het CBS) juist dit soort vraagstukken in kaart gebracht. De enige juiste combinatie die hier hoort te worden ingevuld is de combinatie van SrtIV ambtenaar en CdAard publiekrechtelijke aanstelling.

Dit betekent dus dat dit in meerderheid verkeerd wordt gedaan en dat dit op grond van datamining niet herkend zou zijn. Sterker op grond van datamining zouden mensen die het goed doen benaderd worden met het verzoek te corrigeren. Dit is natuurlijk absoluut niet de bedoeling.

Maar dit is een uitzondering zult u denken. Nou, nee. Er zijn vele van dit soort gevallen. In de meeste gevallen zal datamining niet zo'n tegenovergestelde conclusie geven, maar er zullen wel voor behoorlijke aantallen verkeerde conclusies worden getrokken.

In de meeste van deze gevallen is er wet- en regelgeving, of zijn er specificaties die zeggen dat het op een bepaalde manier moet. De enige manier om dan de kwaliteit van de gegevens vast te stellen is bepalen wat wel en niet is toegestaan.

Daarvoor is input nodig van juristen en fiscalisten en datamining heeft daarin geen rol. Als de experts hebben bepaald wat wel en niet mag dan is het betrekkelijk eenvoudig vast te stellen hoeveel fouten er worden gemaakt.

Voorbeeld: stukloon

Nog een voorbeeld om mee af te sluiten.

Voor een bepaalde analyse wilden we weten welke werknemers per stuk betaald kregen (stukloon) in plaats van per uur. Op grond van een steekproef die was getrokken gaf de datamining analyse als resultaat dat alle werknemers in de sector logistieke dienstverlening waarvoor geen uren waren opgegeven stukloon kregen. Het zou om meer dan 100.000 werknemers gaan.

Hiervan wisten we dat dit niet kon kloppen. Als je gedetailleerd naar de loongegevens van enkele van deze werknemers keek dan kon je zien dat het onzin was. In de steekproef zat een groot bedrijf uit de desbetreffende sector, van dat bedrijf wisten we dat ze stukloon gaven.

Dat bedrijf had een eigen CAO en door naar de CAO code te kijken in plaats van naar de sector kregen we een veel beter beeld van de situatie. In een vervolgsteekproef werd bevestigd dat het beeld op grond van de CAO code veel betrouwbaarder was dan dat op grond van de sector.

Conclusie

Datamining is leuk en nuttig, maar je moet eerst goed nadenken over of je het wel of niet toe kunt passen. Pas je het vervolgens toe dan moet je heel goed je inputparameters bepalen, ook weer door nadenken.

Domweg datamining toepassen is zinloos en kan leiden tot verkeerde conclusies. Datamining, data science, big data en dergelijke technieken zijn geen wondermiddelen. Ze moeten met beleid worden toegepast.

Slim datamining toepassen kan, maar met beperkingen. In het geval van de loonaangiftegegevens zijn er zelfs behoorlijk veel beperkingen en kun je op een groot deel van de gegevens niet zomaar datamining toepassen.

Waardering: 1 van 5.

Stemmen: 0

Gemaakt: 2015-06-17

Gepubliceerd:

Gewijzigd: 2015-12-06

Gepubliceerd door: Abits B.V.