Algoritmer for syntetisering

Det benyttes forskjellige algoritmer for syntetisering av data. Her følger en oversikt over algoritmene som benyttes

CART

Når vi benytter BeAn for syntetisering av data med avhengigheter gjøres dette ved hjelp av beslutningstrær, og mer spesifikt noe som kalles Classification and Regression Trees.

Informasjon om algoritmen finnes ved å følge lenkene nedenfor.

CART: https://en.wikipedia.org/wiki/Predictive_analytics#Classification_and_regression_trees_.28CART.29

Generelt om beslutningstre-algoritmer: https://en.wikipedia.org/wiki/Decision_tree_learning

Synt-pakker som bruker algoritmen:

BISYS
Arena
- AAP
- Meldekort
- Vedtakshistorikk
ELSAM
- Sykemeldinger
- Legeerklæringer
INST
MEDL
NAV endringsmeldinger
PEN
SAM
SIGRUN/POPP
TP
TPS

CHAR-RNN

CHAR-RNN står for Character Based Recurrent Neural Network.

Informasjon om algoritmen kan finnes her: https://www.youtube.com/watch?v=WCUNPb-5EYI

Synt-pakker som bruker algoritmen:

ELSAM - Sykemeldingshistorikk
Arena - Vedtakshistorikk

ERF

ERF står for Extremely Random Forest. Dette er en egenkomponert algoritme for å sikre større spredning i generert data for ulike startpunkter.

Informasjon om algoritmen kan finnes ved å følge lenkene nedenfor.

https://www.youtube.com/watch?v=eM4uJ6XGnSM
https://towardsdatascience.com/the-random-forest-algorithm-d457d499ffcd

Synt-pakker som bruker algoritmen:

INNTK

GAN

GAN står for Generative Adversarial Network.

Informasjon om algoritmen finnes her: https://en.wikipedia.org/wiki/Generative_adversarial_network

Kommentar:

GANs ble testet som en POC en liten stund, men ble aldri implementert.

VAE

VAE står for Variational Autoencoders.

Informasjon om VAE finnes her: https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73

Synt-pakker som bruker algoritmen:

EREG (PoC)

Kommentar:

VAE ble testet som et alternativ til BEAN. Det ble utviklet en PoC på en uke med EREG som eksempel-domene. Resultatene var lovende, men det kreves en god del tilpasninger per domene for å få dette til å fungere. Det kreves også svært mye ressurser for å trene modellene.