TPS Syntetisering

Overordnet arkitektur

Arkitektur

Henting av data

Datagrunnlag som ble benyttet for syntetisering var ca 3 millioner historiske Folkeregister hendelsesmeldinger (SKD) og NAV Endringsmeldinger som TPS hadde mottatt i årene 2015 til 2017. Disse ble først anonymisert ved at alle fødselsnumre ble byttet med nye fiktive, ikke-eksisterende identifikasjonsnummer og alle navn ble erstattet med meningsløse adjektiv og substantiv. Sekvensen av hendelsene for det enkelte FNR og visse typer relasjoner mellom FNR ble beholdt (Ektefelle/barn).

Dataene ble så vasket med nye kommunenr etter kommunereformene som har skjedd i perioden, før de ble overført til syntetiseringsverktøyet.

Generering av data

Mottatte anonymiserte data fra TPS ble brukt til å trene en CART-modell med BeAn. Denne modellen genererte syntetiske SKD og NAV hendelser for et utvalg av de mest brukte og sentrale meldingstypene. Ca 0,6 mill meldinger totalt ble m.a.o. klargjort.

Beskrivelse av modell

Underveis i syntetiseringsarbeidet ble flere metoder forsøkt. Først SynthPOP og SAMPLE-modellen, deretter BeAN og CART-modellen.

  • SynthPOP eskalerte dårlig og tok lang tid ved større mengder data. Den hadde også endel feil i genereringen og var komplisert/tungvint å sette opp mtp på regelverk og sammenhenger mellom dataelementer
  • BeAn var et kraftigere verktøy utviklet av NAV. Bla. kunne relasjoner og gruppering av dataelementer behandles bedre

Begge verktøyene genererte data som var brukelig for testformål med god nok statistisk representasjon av Norges befolkning, men verktøyene tok ikke hensyn til den logiske sammenhengen mellom hendelsene. TPS er et slaveregister som i liten grad har forretningslogikk og er avhengig av at master gir denne sammenhengen. I prosessen hadde dette forsvunnet og forventet alder avvik ofte med virkeligheten, f.eks barn er eldre enn mor.

Relasjoner knyttes begge veier i TPS, men dette ble ikke ivaretatt. Dermed kunne person A være gift med B uten at B var gift med A, men i visse tilfeller gift med person C osv. Disse utfordringene ble løst ved å lage nødvendig logikk for innbyrdes sammenheng i Orkestratoren.