Algoritmer for syntetisering
Det benyttes forskjellige algoritmer for syntetisering av data. Her følger en oversikt over algoritmene som benyttes
CART
Når vi benytter BeAn for syntetisering av data med avhengigheter gjøres dette ved hjelp av beslutningstrær, og mer spesifikt noe som kalles Classification and Regression Trees.
Informasjon om algoritmen finnes ved å følge lenkene nedenfor.
CART: https://en.wikipedia.org/wiki/Predictive_analytics#Classification_and_regression_trees_.28CART.29
Generelt om beslutningstre-algoritmer: https://en.wikipedia.org/wiki/Decision_tree_learning
Synt-pakker som bruker algoritmen:
- BISYS
- Arena
- AAP
- Meldekort
- Vedtakshistorikk
- ELSAM
- Sykemeldinger
- Legeerklæringer
- INST
- MEDL
- NAV endringsmeldinger
- PEN
- SAM
- SIGRUN/POPP
- TP
- TPS
CHAR-RNN
CHAR-RNN står for Character Based Recurrent Neural Network.
Informasjon om algoritmen kan finnes her: https://www.youtube.com/watch?v=WCUNPb-5EYI
Synt-pakker som bruker algoritmen:
- ELSAM - Sykemeldingshistorikk
- Arena - Vedtakshistorikk
ERF
ERF står for Extremely Random Forest. Dette er en egenkomponert algoritme for å sikre større spredning i generert data for ulike startpunkter.
Informasjon om algoritmen kan finnes ved å følge lenkene nedenfor.
- https://www.youtube.com/watch?v=eM4uJ6XGnSM
- https://towardsdatascience.com/the-random-forest-algorithm-d457d499ffcd
Synt-pakker som bruker algoritmen:
- INNTK
GAN
GAN står for Generative Adversarial Network.
Informasjon om algoritmen finnes her: https://en.wikipedia.org/wiki/Generative_adversarial_network
Kommentar:
GANs ble testet som en POC en liten stund, men ble aldri implementert.
VAE
VAE står for Variational Autoencoders.
Informasjon om VAE finnes her: https://towardsdatascience.com/understanding-variational-autoencoders-vaes-f70510919f73
Synt-pakker som bruker algoritmen:
- EREG (PoC)
Kommentar:
VAE ble testet som et alternativ til BEAN. Det ble utviklet en PoC på en uke med EREG som eksempel-domene. Resultatene var lovende, men det kreves en god del tilpasninger per domene for å få dette til å fungere. Det kreves også svært mye ressurser for å trene modellene.