BeAn
BeAn (Beyond ANonymous): Et verktøy for å produsere syntetiske testdata som er eid og utviklet av twoday AS. BeAn tar utgangspunkt i et dataset, og produserer et syntetisk dataset basert på de statistiske egenskapene til det originale datasettet.
Syntetiseringsmetode
Hver kolonne med data håndteres hver for seg, hvor en av tre hovedmetoder brukes på kolonnen.
- SAMPLE: Den mest generelle metoden for områkering av data.
- CART: Denne metoden brukes når verdier i en kolonne er avhengig av en annen. Hvis CART metoden brukes på en kolonne må kolonne nr. til den avhengige kolonnen gis (se eksempel). CART er kort for Classification and Regression Trees.
- HOLDES KONSTANT: Hvis ingen metode er gitt, kan kolonnen beholdes konstant. Dette gjøre med kolonner som FNR og FORNAVN, da disse kolonnene allerede er satt til syntetiske verdier fra andre kilder.
Kolonner kan også nulles ut. Dette gjøres i spesielle tilfeller når en kolonne ikke trengs videre i prosessen.
Andre algoritmer og syntetiseringsmetoder er beskrevet her.
Metadata
For å syntetisere et dataset kreves også et set med metadata, som beskriver parameterne som benyttes under syntetiseringen. Metadataen spesifiserer:
- Hvilke konoller skal syntetiseres
- Hvilken syntetiseringsmetode?
- Cart
- Sample
- Hvilke kolonner skal nulles ut
- Hvilke kolonner er avhengig av hverandre
Eksempel på syntetisering
Rådata:
R | FNR | SLEKTSNAVN | FORNAVN | KOMMUNENUMMER | GATE_GAARD | BIBEHOLD |
---|---|---|---|---|---|---|
1 | 12345678910 | BJØRNUNGE | UNYTTIG | 4004 | 03600 | TIL |
2 | 12345678911 | LERKETRE | AKTIV | 0310 | 18780 | FEL |
3 | 12345678912 | BETALING | SKAMFULL | 1519 | 00153 | DIG |
Metadata:
Kolonnenr | Kolonne | Slettes | Metode | Ref til |
---|---|---|---|---|
1 | FNR | |||
2 | SLEKTSNAVN | |||
3 | FORNAVN | SAMPLE | ||
4 | KOMMUNENUMMER | SAMPLE | ||
5 | GATE_GAARD | CART | 4 | |
6 | BIBEHOLD | 1 |
Produsert syntetisk data:
R | FNR | SLEKTSNAVN | FORNAVN | KOMMUNENUMMER | GATE_GAARD | BIBEHOLD |
---|---|---|---|---|---|---|
1 | 12345678910 | BJØRNUNGE | SKAMFULL | 0310 | 18780 | |
2 | 12345678911 | LERKETRE | UNYTTIG | 1516 | 00153 | |
3 | 12345678912 | BETALING | AKTIV | 4004 | 03600 |
Dette er et enkelt eksempel, og er kun ment som forhåndsvisning på syntetisering gjennom BeAn. Som man kan se i eksemplet blir KOMMUNENUMMER
og GATE_GAARD
beholdt sammen, da syntetiseringsmetoden til GATE_GAARD
er satt til CART
, og refererer til kolonnenr 4 (som er KOMMUNENUMMER
).