BeAn

BeAn (Beyond ANonymous): Et verktøy for å produsere syntetiske testdata som er eid og utviklet av twoday AS. BeAn tar utgangspunkt i et dataset, og produserer et syntetisk dataset basert på de statistiske egenskapene til det originale datasettet.

Syntetiseringsmetode

Hver kolonne med data håndteres hver for seg, hvor en av tre hovedmetoder brukes på kolonnen.

  1. SAMPLE: Den mest generelle metoden for områkering av data.
  2. CART: Denne metoden brukes når verdier i en kolonne er avhengig av en annen. Hvis CART metoden brukes på en kolonne må kolonne nr. til den avhengige kolonnen gis (se eksempel). CART er kort for Classification and Regression Trees.
  3. HOLDES KONSTANT: Hvis ingen metode er gitt, kan kolonnen beholdes konstant. Dette gjøre med kolonner som FNR og FORNAVN, da disse kolonnene allerede er satt til syntetiske verdier fra andre kilder.

Kolonner kan også nulles ut. Dette gjøres i spesielle tilfeller når en kolonne ikke trengs videre i prosessen.
Andre algoritmer og syntetiseringsmetoder er beskrevet her.

Metadata

For å syntetisere et dataset kreves også et set med metadata, som beskriver parameterne som benyttes under syntetiseringen. Metadataen spesifiserer:

  • Hvilke konoller skal syntetiseres
  • Hvilken syntetiseringsmetode?
    • Cart
    • Sample
  • Hvilke kolonner skal nulles ut
  • Hvilke kolonner er avhengig av hverandre

Eksempel på syntetisering

Rådata:

R FNR SLEKTSNAVN FORNAVN KOMMUNENUMMER GATE_GAARD BIBEHOLD
1 12345678910 BJØRNUNGE UNYTTIG 4004 03600 TIL
2 12345678911 LERKETRE AKTIV 0310 18780 FEL
3 12345678912 BETALING SKAMFULL 1519 00153 DIG

Metadata:

Kolonnenr Kolonne Slettes Metode Ref til
1 FNR      
2 SLEKTSNAVN      
3 FORNAVN   SAMPLE  
4 KOMMUNENUMMER   SAMPLE  
5 GATE_GAARD   CART 4
6 BIBEHOLD 1    

Produsert syntetisk data:

R FNR SLEKTSNAVN FORNAVN KOMMUNENUMMER GATE_GAARD BIBEHOLD
1 12345678910 BJØRNUNGE SKAMFULL 0310 18780  
2 12345678911 LERKETRE UNYTTIG 1516 00153  
3 12345678912 BETALING AKTIV 4004 03600  

Dette er et enkelt eksempel, og er kun ment som forhåndsvisning på syntetisering gjennom BeAn. Som man kan se i eksemplet blir KOMMUNENUMMER og GATE_GAARD beholdt sammen, da syntetiseringsmetoden til GATE_GAARD er satt til CART, og refererer til kolonnenr 4 (som er KOMMUNENUMMER).