Anonyymien tulosten tuottaminen

Tältä sivulta löydät ohjeet anonyymien tulosten tuottamiseen. Henkilötietoaineistoa käsittelevän tulee tuottaa analyysitulokset anonyymissa muodossa, josta yksittäisen henkilön tietoja tai ominaisuuksia ei paljastu. Varmistamme toisiolain mukaisesti tulosten anonymiteetin. Tämä koskee kaikkia aineistoja, joihin on myönnetty lupa toisiolain perusteella.

Tällä sivulla esitellään yleisimpiä analyysityyppejä, joita tutkimusten tuloksissa on yleensä mukana. Lista ei ole kattava. On hyvä huomata, että paljastumisriskiin vaikuttaa muuttujien sisältö. Jossain tapauksissa paljastumisen riski on ilmeinen, mutta on paljon muuttujia, joiden yksittäisen tarkan arvonkaan kautta henkilöä ei ole mahdollista päätellä.

Tulokset tulee tarkastaa ja varmistaa, että ne noudattavat tätä ohjeistusta eri tulostyyppien osalta. Joidenkin tulostyyppien osalta voidaan anonymiteetti todeta helposti, kun taas toisten osalta siihen vaaditaan tarkempaa tarkastelua. Vaikka pelkän ohjeistuksen noudattaminen ei varmista tulosten anonymiteettiä, näitä ohjeita seuraamalla päästään mahdollisimman lähelle tavoitetta.

Mitä anonymisointi tarkoittaa?

Anonymisointi tarkoittaa prosessia, jossa aineisto käsitellään niin, että

  • yksittäistä henkilöä ei voida suoraan tai välillisesti tunnistaa
  • ei voida tehdä vain yksittäistä henkilöä koskevia päätelmiä
  • yksittäistä henkilöä koskevia tietoja ei voida yhdistellä muuhun aineistoon.

Anonyymi aineisto tulee olla mahdotonta tai kohtuuttoman vaikeaa palauttaa muotoon, jossa yksittäinen henkilö on tunnistettavissa. Toisiolain mukaan tulosten tulee olla anonyymejä.

Mikäli tutkimuksessa on tarve julkaista tuloksia, joita ei ole mahdollista anonymisoida, tulee tämä ottaa huomioon jo tutkimusta suunniteltaessa ja käyttää muita perusteita tutkimuksen toteuttamiseen, kuten tutkittavien suostumusta.

On tärkeä huomata, että vaikka yksittäinen tulos itsessään on anonyymi, on useita tuloksia yhdistelemällä joskus mahdollisuus tietojen paljastumiselle. Tyypillinen esimerkki tästä on useampien frekvenssitaulukoiden tuottaminen samoilla muuttujan luokituksilla. Näistä on yleensä mahdollista yhdistää tarkempaa tietoa sisältävä frekvenssitaulukko, jossa tietoa on määritelty useamman muuttujan suhteen.

Tulosten yhdisteleminen tulee ottaa huomioon sekä työn alla olevan analyysin että aiempien analyysien osalta. Jos käyttäjällä on tiedossa aiempia julkaisuja, joiden analyyseissä on käytetty samaa tai liki samaa aineistoa tai sen osajoukkoa, käyttäjän tulee toimittaa vähintään linkit sellaisiin julkaisuihin.

Anonymiteetin varmistamiseksi lähdetään siitä, että tuloksissa esiintyvä minimifrekvenssi on viisi. Tätä kriteeriä käytetään tietosuojan varmistamiseksi. Perustellusta syystä ja tapauskohtaista harkintaa käyttäen voidaan poiketa minimifrekvenssin <5 vaatimuksesta ja käyttää minimifrekvenssiä <3, jos kyseessä on esimerkiksi erittäin pieni kohdejoukko, harvinaissairaustutkimus tai tutkitaan muuten harvinaista ilmiötä. Tämän tiedon tulee olla tutkimuksen kannalta merkittävä löydös, joka on välttämätöntä raportoida tällä tarkkuudella ja anonymiteetin kriteerien tulee täyttyä (eli käytetyt muuttujat eivät yksilöi henkilöä niin, että tunnistaminen on mahdollista).

Findatalla on oltava näkyvillä riittävät taustatiedot kuhunkin analyysityyppiin anonymiteetin varmistamiseksi. Nämä tiedot on oltava näkyvissä tulosteen ohessa. Joko tuloksen vieressä tai erillisenä dokumenttina siten, että tulos ja taustatiedot on helposti ymmärrettävissä. Käytämme anonymiteetin varmistuksen prosessin pohjana alla olevassa taulukossa kuvattuja periaatteita.

Tulostyyppien paljastumisriskin mukainen luokittelu

TietotyyppiTuloksen tyyppiYleistävä luokittelu
Kuvailevat tunnusluvut
FrekvenssitaulukkoTarkastettava
MäärätaulukkoTarkastettava
Maksimi, minimi, persentiilit, mediaaniTarkastettava
MoodiYleensä turvallinen
Keskiarvo, indeksit, suhdeluvut, indikaattoritTarkastettava
Keskittymisaste  Yleensä turvallinen
Korkeamman momentin tunnusluvut (kuten varianssi, kovarianssi, huipukkuus, vinous)Yleensä turvallinen
Kuviot: alkuperäisen aineiston kuvallinen esittäminenTarkastettava
Korrelaatiot ja regressiotyyppiset analyysit
Lineaarisen regression kertoimetYleensä turvallinen
Epälineaarisen regression kertoimet  Yleensä turvallinen
Estimoinnin residuaalitTarkastettava
Estimaattien yhteenveto- ja testisuureet (R2, χ2 etc.) Yleensä turvallinen
KorrelaatiokertoimetYleensä turvallinen
FaktorianalyysiYleensä turvallinen
KorrespondenssianalyysiYleensä turvallinen

Kuvailevat tunnusluvut ja analyysit

Alla olevassa tekstissä joukko tai kohdejoukko tarkoittaa niitä havaintoja, joista tunnuslukuja lasketaan.

Minimi, maksimi ja vaihteluväli

Yleensä minimi ja maksimi kohdistuvat helpoimmin tunnistettavaan yhteen yksikköön, joten lähtökohtaisesti sisältävät paljastumisriskin. Nämä voidaan julkaista, mikäli tunnusluvun arvo perustuu useampaan yksikköön. Tulosten anonymiteettiä voi parantaa jakamalla tiedot luokkiin, jolloin jokaiseen luokkaan tulee useampia yksilöitä. Minimin ja maksimin rinnalla voi harkita sopivien kvantiilien käyttöä.

Fraktiilit – kvantiilit, desiilit, persentiilit, mediaani

Julkaistavissa mikäli luvun taustalla oleva frekvenssi on riittävän suuri.

Keskiarvo, keskihajonta

Voi harvoissa tapauksissa sisältää paljastumisriskin. Tarkastettava, että tulos kuvaa riittävän isoa joukkoa ja koko kohdejoukko ei saa samaa arvoa. Tarkastettava, ettei raportoida tunnuslukuja useammasta lähes identtisestä joukosta tai osajoukosta.

Moodi eli tyyppiarvo

Lähtökohtaisesti julkaistavissa, mutta tarkastettava ryhmän paljastuminen eli ettei kuvaa koko kohdejoukon arvoa.

Korkeamman momentin tunnusluvut kuten varianssi

Lähtökohtaisesti julkaistavissa, koska tunnusluku on selvästi muunnettu alkuperäisistä yksilön arvoista. Varmistettava, ettei julkaista pienestä joukosta liian montaa tunnuslukua, joiden avulla koko joukko voisi paljastua.

Korrelaatiokertoimet

Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.

Keskittymisasteet

Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.

Lineaarinen regressio, epälineaarinen regressio

Lähtökohtaisesti julkaistavissa.

Testisuureet

Lähtökohtaisesti julkaistavissa.

Faktorianalyysi

Lähtökohtaisesti julkaistavissa, mutta on varmistettava, ettei faktorien taustalla ole vain yksittäinen muuttuja.

Pääkomponenttianalyysi

Pääkomponenttivektorit ja niitä vastaavat ominaisarvot lähtökohtaisesti julkaistavissa. Havaintojen projektiot pääkomponenteille tarkastettava (vastaa sirontakuviota, ks. alla).

Indeksit, suhdeluvut, indikaattorit

Indeksit ovat lähtökohtaisesti julkaistavissa, mutta käytetty laskukaava tulee ottaa huomioon. Monimutkaisemman laskukaavan indeksit (esim. Fisher Price) eivät yleensä aiheuta paljastumisriskiä, mutta hyvin yksinkertaisissa laskukaavoissa riski on mahdollinen ja lukujen taustalla tulee olla riittävästi havaintoja. 

Gini-kertoimet

Gini-kerroin tulee olla laskettu riittävän suurelle määrälle havaintoja. Tarkastamisessa tarvitaan seuraavat tiedot: laskukaava ja mahdollisesti frekvenssit lukujen taustalla.

Kuviot

Lähtökohtaisesti kuvan tietosuojan arvioinnissa aggregoitu taulukkomuotoinen esitys on helpommin hahmotettavissa kuin itse kuva, koska kuvasta on yleensä mahdotonta nähdä jokaisen pisteen tai käyrän taustalla olevien havaintojen frekvenssit. Tämän takia kuvan mukana tulee toimittaa tuloksen takana oleva taulukko, jos kuvassa kuvataan yksittäisiä havaintoja tai pientä kohdejoukkoa.

Histogrammi

Histogrammeissa tulee kiinnittää huomio siihen, että aineisto on luokiteltu niin, ettei yksittäiseen luokkaan tule liian vähän havaintoja. Tämä tuottaa haasteen erityisesti esimerkiksi normaalijakauman häntiin. Ohje on verrannollinen aineistoa kuvailevien tunnuslukujen tapaukseen ja välttämättä koko häntää ei siis voida kuvata.

Hajontakuviot tai sirontakuvio

Hajontakuvioissa on lähtökohtaisesti yhden pisteen taustalla yksi yksikkö ja siksi nämä eivät ole julkaistavissa ilman kuvaajan tuottamiseen käytetyn aineiston ryhmittelyä siten, että yhden pisteen taustalla on useampia havaintoja. Julkaistavissa ainoastaan, jos kuvion perustana oleva data olisi julkaistavissa taulukkona. Arvioinnissa tulee kuitenkin ottaa myös huomioon, mahdollistaako käytettyjen muuttujien yhdistelmä yksilön tunnistamisen. Hajontakuvion anonymiteettiä voi parantaa korvaamalla se kuvaajalla, jossa esitetään havaintojen frekvenssiä ruudukon soluissa, tai lisäämällä pisteisiin satunnaisuutta.

Viiksilaatikko, laatikkojanakuvio (Box plots)

Lähtökohtaisesti paljastumisriski, koska sisältävät yksittäiseen havaintoon kohdistuvia kuvapisteitä ja erityisesti poikkeavat havainnot voivat johtaa paljastumiseen. Myös keskiarvo voi aiheuttaa paljastumisriskin. Ohje verrannollinen aineistoa kuvailevien tunnuslukujen tapaukseen ja erityisesti poikkeavat havainnot aiheuttavat paljastumisriskiä.

Residuaalit

Residuaalit viittaavat yhteen havaintoon. Residuaalien kuvaamisessa tulisi käyttää kuvaajan muotoa yksittäisiin pisteisiin perustuvan kuvaajan sijasta. Jos käytetään yksittäisiin pisteisiin perustuvaa kuvaajaa, tulisi akseleiden arvojen kertomista välttää.

Elinaika-analyysi, Kaplan-Meier -käyrä

Voi sisältää paljastumisriskin riippuen analyysin määrityksestä. Jos jokainen käyrän askel vastaa riittävän montaa havaintoa, niin voidaan julkaista. Jos on selvää, ettei käyrän taustalla olevien tietojen avulla voida päätellä täsmällisiä ikiä tai kalenteriajan hetkiä, voidaan yksittäisiäkin askeleita sallia. Yksittäisiä askeleita julkaistaessa on kuitenkin pohdittava kuinka hyvin kuvaajan taustatiedot yksilöivät henkilöitä.

Spatiaalinen analyysi

Erityisen haastava tietosuojan kannalta, koska sijaintitieto on yleensä keskeinen tieto paljastumisessa. Vaatii yleensä paljon uudelleen luokittelua ja mieluummin tiedon esittämistä lämpökarttoina havaintopisteiden sijaan.

Muita tulostyyppejä

Valokuvat ja muut kuvantamisen materiaalit

Kuvantamisen materiaalien osalta tarkastetaan tilanne tapauskohtaisesti. Kuvantamisen materiaalien osalta kaikkia erilaisia materiaaleja koskevia yleisiä ohjeita on hyvin vaikea määrittää. Luonnollisesti materiaaleissa ei saa olla tekstimuotoisia suoria tunnisteita ja karkeampi kuva yleensä vaikeuttaa tunnistamista. Kuvantamisen materiaaleja käsittelevät henkilöt ovat yleensä parhaita arvioimaan kuvamateriaalin paljastumisriskiä. Esimerkiksi yksittäinen hammas ei yleensä yksilöi henkilöä, mutta koko hammaskartta luonnollisesti yksilöi.

Perinnöllinen geneettinen tieto

Perinnöllisen geneettisen tiedon osalta riittävän pientä määrää variantteja koskevat riittävän suuresta joukosta lasketut tunnusluvut voivat olla anonyymejä. Nämä on kuitenkin tarkastettava tapauskohtaisesti.

Koneoppiminen

Neuroverkkojen ja muiden koneoppimismallien (päätöspuut yms.) osalta on harvoin kyse materiaalin varsinaisesta julkaisemisesta. Kuitenkin tällaisia tuloksia halutaan tuoda tietoturvallisen Kapseli-käyttöympäristön ulkopuolelle ja näiden tarkastaminen tehdään tapauskohtaisesti. Yleisiä ohjeita lisätään myöhemmin.

Yksilötasoinen aineisto

Yksilötasoisen aineiston anonymiteetti tulee aina varmistaa tapauskohtaisesti. Ota yhteyttä Findataan tarkempia ohjeita varten.

Lähteet

Usein kysyttyä tulosten tarkastamisesta

Sisältö tulossa