Što su sintetički podaci i kako ih vlada koristi?

SINTETIČKI PODACI U JAVNOJ UPRAVI: U doba u kojem su podaci „novo zlato”, javne institucije sve više traže načine da izvuku vrijedne uvide iz ogromnih količina informacija, a pritom čuvaju privatnost građana. Upravo tu nastupa koncept umjetnih, tj. sintetskih podataka — umjetno generiranih skupova koji oponašaju svojstva stvarnih podataka, ali bez ugrožavanja osobnih podataka.
Kako piše portal GovTech, a članak se referira prvenstveno na vladu SAD-a, zagovornici ove tehnologije kažu da ona obećava kako državi omogućiti bolji pristup vrijednim podacima, dok istovremeno štiti privatnost pojedinaca.
U nastavku donosimo uvid u to što su sintetski podaci, zašto ih koristi javni sektor, gdje leže prednosti i koja su izazovna pitanja.
Što su sintetski podaci?
U najjednostavnijem smislu, sintetski podaci su „umjetni” podaci generirani algoritmima, koji nastoje zadržati statistička svojstva originalnih (stvarnih) podataka — njihove obrasce, distribucije, korelacije. Na primjer, tvrtka IBM definira ih kao podatke „dizajnirane da imitiraju podatke iz stvarnog svijeta”.
Postoje razne vrste: potpuno sintetski, u kojima nema stvarnih podataka u skupu, i djelomični, gdje se stvarni podaci modificiraju ili zamjenjuju radi zaštite privatnosti.
Zašto država koristi sintetske podatke?
Privatnost i regulacija
Javne institucije imaju pristup ogromnim bazama podataka građana – zdravstveni podaci, obrasci za socijalnu pomoć, prometni podaci, edukacijski podaci… No, istovremeno su pod strogim regulativama o zaštiti privatnosti i sigurnosti. Sintetski podaci omogućuju da službe mogu ispitivati obrasce, trenirati sustave ili testirati algoritme bez izlaganja stvarnih osobnih podataka.
To je posebno važno kod primjene umjetne inteligencije (AI) u javnom sektoru – modelima je potrebno ogromno podatkovno gorivo, a stvarni podaci često ne mogu biti korišteni zbog etičkih, zakonskih ili logističkih prepreka.
Podaci su oskudni i fragmentirani
Drugi razlog je – realni podaci često nisu dostatni za treniranje sofisticiranih sustava. Na primjer, manjinske skupine, rijetki događaji ili ekstremni scenariji mogu biti loše zastupljeni. Sintetski podaci mogu „popuniti praznine”, generirati potrebe podatke i time pomoći modelima da budu robusniji.
Također, kada su baze podataka razbacane, nepovezane ili vrlo raznovrsne, sintetski pristup omogućuje da se simuliraju uvjeti koji možda u stvarnosti nisu dohvatljivi.
Primjeri iz javnog sektora
- U javnim administracijama saveznih i pod-državnih razina u SAD-u, pokazuju se primjeri upotrebe: primjerice, educiranje modela na temelju obrazovnih ili prometnih podataka uz pomoć sintetskih skupova.
- Studije i savjeti ističu da upotreba sintetskih podataka može ubrzati uvođenje AI u državnim agencijama, ali da postoji i relativna nevoljkost: jedan izvještaj navodi kako 32 % donositelja odluka u javnom sektoru ne razmatra korištenje sintetskih podataka.
Izazovi i opasnosti koje donosi sintetski pristup
Iako zvuči kao „sveti gral” rješavanja pitanja privatnosti i dostupnosti podataka, sintetski podaci nisu bez mana.
Rizik od pristranosti i kvalitete
Ako originalni podaci imaju pristranosti ili manjkavosti, generatori sintetskih podataka mogu te pristranosti replicirati ili čak pojačati. To može voditi do iskrivljenih analiza ili lošijih odluka.
Također, ako je generirani skup loše napravljen, modeli trenirani na takvim podacima možda neće generalizirati dobro na stvarne situacije.
Transparentnost i povjerenje
Kako države koriste sintetske podatke, postavlja se pitanje: može li građanin biti siguran da analiza, simulacija ili politika koja se temelji na takvim podacima bude pouzdana i pravična? Potrebni su procesi označavanja, provjere i nadzora koji garantiraju da se zna koje su podatke „prave”, a koje „sintetske”.
Tehnička i organizacijska spremnost
Državne agencije često imaju izazove u tehnološkoj infrastrukturi, staffing-kapacitetima i procesima upravljanja podacima. Uvođenje sintetskih podataka zahtijeva i edukaciju, i planiranje, i nadzor.
Budućnost: što možemo očekivati?
Stručnjaci predviđaju da će sintetski podaci u narednim godinama imati sve važniju ulogu u javnom sektoru. Prema jednoj procjeni, do 2024. već 60 % podataka za AI-projektiranje moglo bi biti sintetski generirano.
Za državne institucije ovo znači:
- mogućnost bržeg razvoja i testiranja digitalnih rješenja bez dugih perioda prikupljanja stvarnih podataka,
- bolju zaštitu privatnih podataka građana,
- potencijalno veću agilnost u vođenju politika i pružanju usluga.
Međutim, ostvarenje tog potencijala bit će uvjetovano time koliko će institucije uspostaviti jasne standarde, etičke okvire i tehničke sustave kontrole.
Zaključak
Sintetski podaci predstavljaju intrigantnu i moćnu inovaciju za javni sektor: donose priliku da se „prozori” u podatke otvore bez ugrožavanja privatnosti. No, kao i sa svakom novom tehnologijom, važno je ne zaboraviti da čisto tehnološko rješenje neće samo po sebi riješiti sve probleme. Potrebna je pažljiva implementacija, transparentnost, nadzor i — što je možda najteže — kulturološka promjena unutar institucija koje rade s podacima.
U eri u kojoj su informacije temelj odlučivanja, ulaganje u razumijevanje i kvalitetu podatkovnih procesa mogao bi biti razlikovni faktor između države koja „pliva” u digitalnoj transformaciji i one koja ostaje zaglavljena u dugim popisima tablica i birokratskim procedurama.
U konačnici, ključ će biti: ne radi se samo o tome koliko podataka imamo, nego kako ih pametno koristimo – i pritom poštujemo prava građana.





