Tältä sivulta löydät ohjeet anonyymien tulosten tuottamiseen. Henkilötietoaineistoa käsittelevän tulee tuottaa analyysitulokset anonyymissa muodossa, josta yksittäisen henkilön tietoja tai ominaisuuksia ei paljastu. Varmistamme toisiolain mukaisesti tulosten anonymiteetin. Tämä koskee kaikkia aineistoja, joihin on myönnetty lupa toisiolain perusteella. Emme peri anonymiteetin varmistuksesta maksua.
Tällä sivulla esitellään yleisimpiä analyysityyppejä, joita tutkimusten tuloksissa on yleensä mukana. Lista ei ole kattava. On hyvä huomata, että paljastumisriskiin vaikuttaa muuttujien sisältö. Jossain tapauksissa paljastumisen riski on ilmeinen, mutta on paljon muuttujia, joiden yksittäisen tarkan arvonkaan kautta henkilöä ei ole mahdollista päätellä.
Tulokset tulee tarkastaa ja varmistaa, että ne noudattavat tätä ohjeistusta eri tulostyyppien osalta. Joidenkin tulostyyppien osalta voidaan anonymiteetti todeta helposti, kun taas toisten osalta siihen vaaditaan tarkempaa tarkastelua. Vaikka pelkän ohjeistuksen noudattaminen ei varmista tulosten anonymiteettiä, näitä ohjeita seuraamalla päästään mahdollisimman lähelle tavoitetta.
Mitä anonymisointi tarkoittaa?
Anonymisointi tarkoittaa prosessia, jossa aineisto käsitellään niin, että
- yksittäistä henkilöä ei voida suoraan tai välillisesti tunnistaa
- ei voida tehdä vain yksittäistä henkilöä koskevia päätelmiä
- yksittäistä henkilöä koskevia tietoja ei voida yhdistellä muuhun aineistoon.
Anonyymi aineisto tulee olla mahdotonta tai kohtuuttoman vaikeaa palauttaa muotoon, jossa yksittäinen henkilö on tunnistettavissa. Toisiolain mukaan tulosten tulee olla anonyymejä.
Mikäli tutkimuksessa on tarve julkaista tuloksia, joita ei ole mahdollista anonymisoida, tulee tämä ottaa huomioon jo tutkimusta suunniteltaessa ja käyttää muita perusteita tutkimuksen toteuttamiseen, kuten tutkittavien suostumusta.
On tärkeä huomata, että vaikka yksittäinen tulos itsessään on anonyymi, on useita tuloksia yhdistelemällä joskus mahdollisuus tietojen paljastumiselle. Tyypillinen esimerkki tästä on useampien frekvenssitaulukoiden tuottaminen samoilla muuttujan luokituksilla. Näistä on yleensä mahdollista yhdistää tarkempaa tietoa sisältävä frekvenssitaulukko, jossa tietoa on määritelty useamman muuttujan suhteen.
Tulosten yhdisteleminen tulee ottaa huomioon sekä työn alla olevan analyysin että aiempien analyysien osalta. Jos käyttäjällä on tiedossa aiempia julkaisuja, joiden analyyseissä on käytetty samaa tai liki samaa aineistoa tai sen osajoukkoa, käyttäjän tulee toimittaa vähintään linkit sellaisiin julkaisuihin.
Anonymiteetin varmistamiseksi lähdetään siitä, että tuloksissa esiintyvä minimifrekvenssi on viisi. Tätä kriteeriä käytetään tietosuojan varmistamiseksi. Perustellusta syystä ja tapauskohtaista harkintaa käyttäen voidaan poiketa minimifrekvenssin <5 vaatimuksesta ja käyttää minimifrekvenssiä <3, jos kyseessä on esimerkiksi erittäin pieni kohdejoukko, harvinaissairaustutkimus tai tutkitaan muuten harvinaista ilmiötä. Tämän tiedon tulee olla tutkimuksen kannalta merkittävä löydös, joka on välttämätöntä raportoida tällä tarkkuudella ja anonymiteetin kriteerien tulee täyttyä (eli käytetyt muuttujat eivät yksilöi henkilöä niin, että tunnistaminen on mahdollista).
Findatalla on oltava näkyvillä riittävät taustatiedot kuhunkin analyysityyppiin anonymiteetin varmistamiseksi. Ilmoita nämä tiedot tulosten mukana toimitettavalla yhteenvetolomakkeella. Käytämme anonymiteetin varmistuksen prosessin pohjana alla olevassa taulukossa kuvattuja periaatteita.
Tulostyyppien paljastumisriskin mukainen luokittelu
Tietotyyppi | Tuloksen tyyppi | Yleistävä luokittelu |
---|---|---|
Kuvailevat tunnusluvut | ||
Frekvenssitaulukko | Tarkastettava | |
Määrätaulukko | Tarkastettava | |
Maksimi, minimi, persentiilit, mediaani | Tarkastettava | |
Moodi | Yleensä turvallinen | |
Keskiarvo, indeksit, suhdeluvut, indikaattorit | Tarkastettava | |
Keskittymisaste | Yleensä turvallinen | |
Korkeamman momentin tunnusluvut (kuten varianssi, kovarianssi, huipukkuus, vinous) | Yleensä turvallinen | |
Kuviot: alkuperäisen aineiston kuvallinen esittäminen | Tarkastettava | |
Korrelaatiot ja regressiotyyppiset analyysit | ||
Lineaarisen regression kertoimet | Yleensä turvallinen | |
Epälineaarisen regression kertoimet | Yleensä turvallinen | |
Estimoinnin residuaalit | Tarkastettava | |
Estimaattien yhteenveto- ja testisuureet (R2, χ2 etc.) | Yleensä turvallinen | |
Korrelaatiokertoimet | Yleensä turvallinen | |
Faktorianalyysi | Yleensä turvallinen | |
Korrespondenssianalyysi | Yleensä turvallinen |
Kuvailevat tunnusluvut ja analyysit
Alla olevassa tekstissä joukko tai kohdejoukko tarkoittaa niitä havaintoja, joista tunnuslukuja lasketaan.
Minimi, maksimi ja vaihteluväli
Yleensä minimi ja maksimi kohdistuvat helpoimmin tunnistettavaan yhteen yksikköön, joten lähtökohtaisesti sisältävät paljastumisriskin. Nämä voidaan julkaista, mikäli tunnusluvun arvo perustuu useampaan yksikköön. Tulosten anonymiteettiä voi parantaa jakamalla tiedot luokkiin, jolloin jokaiseen luokkaan tulee useampia yksilöitä. Minimin ja maksimin rinnalla voi harkita sopivien kvantiilien käyttöä.
Fraktiilit – kvantiilit, desiilit, persentiilit, mediaani
Julkaistavissa mikäli luvun taustalla oleva frekvenssi on riittävän suuri.
Keskiarvo, keskihajonta
Voi harvoissa tapauksissa sisältää paljastumisriskin. Tarkastettava, että tulos kuvaa riittävän isoa joukkoa ja koko kohdejoukko ei saa samaa arvoa. Tarkastettava, ettei raportoida tunnuslukuja useammasta lähes identtisestä joukosta tai osajoukosta.
Moodi eli tyyppiarvo
Lähtökohtaisesti julkaistavissa, mutta tarkastettava ryhmän paljastuminen eli ettei kuvaa koko kohdejoukon arvoa.
Korkeamman momentin tunnusluvut kuten varianssi
Lähtökohtaisesti julkaistavissa, koska tunnusluku on selvästi muunnettu alkuperäisistä yksilön arvoista. Varmistettava, ettei julkaista pienestä joukosta liian montaa tunnuslukua, joiden avulla koko joukko voisi paljastua.
Korrelaatiokertoimet
Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.
Keskittymisasteet
Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.
Lineaarinen regressio, epälineaarinen regressio
Lähtökohtaisesti julkaistavissa.
Testisuureet
Lähtökohtaisesti julkaistavissa.
Faktorianalyysi
Lähtökohtaisesti julkaistavissa, mutta on varmistettava, ettei faktorien taustalla ole vain yksittäinen muuttuja.
Pääkomponenttivektorit ja niitä vastaavat ominaisarvot lähtökohtaisesti julkaistavissa. Havaintojen projektiot pääkomponenteille tarkastettava (vastaa sirontakuviota, ks. alla).
Indeksit, suhdeluvut, indikaattorit
Indeksit ovat lähtökohtaisesti julkaistavissa, mutta käytetty laskukaava tulee ottaa huomioon. Monimutkaisemman laskukaavan indeksit (esim. Fisher Price) eivät yleensä aiheuta paljastumisriskiä, mutta hyvin yksinkertaisissa laskukaavoissa riski on mahdollinen ja lukujen taustalla tulee olla riittävästi havaintoja.
Gini-kerroin tulee olla laskettu riittävän suurelle määrälle havaintoja. Tarkastamisessa tarvitaan seuraavat tiedot: laskukaava ja mahdollisesti frekvenssit lukujen taustalla.
Kuviot
Lähtökohtaisesti kuvan tietosuojan arvioinnissa aggregoitu taulukkomuotoinen esitys on helpommin hahmotettavissa kuin itse kuva, koska kuvasta on yleensä mahdotonta nähdä jokaisen pisteen tai käyrän taustalla olevien havaintojen frekvenssit. Tämän takia kuvan mukana tulee toimittaa tuloksen takana oleva taulukko, jos kuvassa kuvataan yksittäisiä havaintoja tai pientä kohdejoukkoa.
Histogrammi
Histogrammeissa tulee kiinnittää huomio siihen, että aineisto on luokiteltu niin, ettei yksittäiseen luokkaan tule liian vähän havaintoja. Tämä tuottaa haasteen erityisesti esimerkiksi normaalijakauman häntiin. Ohje on verrannollinen aineistoa kuvailevien tunnuslukujen tapaukseen ja välttämättä koko häntää ei siis voida kuvata.
Hajontakuviot tai sirontakuvio
Hajontakuvioissa on lähtökohtaisesti yhden pisteen taustalla yksi yksikkö ja siksi nämä eivät ole julkaistavissa ilman kuvaajan tuottamiseen käytetyn aineiston ryhmittelyä siten, että yhden pisteen taustalla on useampia havaintoja. Julkaistavissa ainoastaan, jos kuvion perustana oleva data olisi julkaistavissa taulukkona. Arvioinnissa tulee kuitenkin ottaa myös huomioon, mahdollistaako käytettyjen muuttujien yhdistelmä yksilön tunnistamisen. Hajontakuvion anonymiteettiä voi parantaa korvaamalla se kuvaajalla, jossa esitetään havaintojen frekvenssiä ruudukon soluissa, tai lisäämällä pisteisiin satunnaisuutta.
Viiksilaatikko, laatikkojanakuvio (Box plots)
Lähtökohtaisesti paljastumisriski, koska sisältävät yksittäiseen havaintoon kohdistuvia kuvapisteitä ja erityisesti poikkeavat havainnot voivat johtaa paljastumiseen. Myös keskiarvo voi aiheuttaa paljastumisriskin. Ohje verrannollinen aineistoa kuvailevien tunnuslukujen tapaukseen ja erityisesti poikkeavat havainnot aiheuttavat paljastumisriskiä.
Residuaalit
Residuaalit viittaavat yhteen havaintoon. Residuaalien kuvaamisessa tulisi käyttää kuvaajan muotoa yksittäisiin pisteisiin perustuvan kuvaajan sijasta. Jos käytetään yksittäisiin pisteisiin perustuvaa kuvaajaa, tulisi akseleiden arvojen kertomista välttää.
Elinaika-analyysi, Kaplan-Meier -käyrä
Voi sisältää paljastumisriskin riippuen analyysin määrityksestä. Jos jokainen käyrän askel vastaa riittävän montaa havaintoa, niin voidaan julkaista. Jos on selvää, ettei käyrän taustalla olevien tietojen avulla voida päätellä täsmällisiä ikiä tai kalenteriajan hetkiä, voidaan yksittäisiäkin askeleita sallia. Yksittäisiä askeleita julkaistaessa on kuitenkin pohdittava kuinka hyvin kuvaajan taustatiedot yksilöivät henkilöitä.
Spatiaalinen analyysi
Erityisen haastava tietosuojan kannalta, koska sijaintitieto on yleensä keskeinen tieto paljastumisessa. Vaatii yleensä paljon uudelleen luokittelua ja mieluummin tiedon esittämistä lämpökarttoina havaintopisteiden sijaan.
Muita tulostyyppejä
Valokuvat ja muut kuvantamisen materiaalit
Kuvantamisen materiaalien osalta tarkastetaan tilanne tapauskohtaisesti. Kuvantamisen materiaalien osalta kaikkia erilaisia materiaaleja koskevia yleisiä ohjeita on hyvin vaikea määrittää. Luonnollisesti materiaaleissa ei saa olla tekstimuotoisia suoria tunnisteita ja karkeampi kuva yleensä vaikeuttaa tunnistamista. Kuvantamisen materiaaleja käsittelevät henkilöt ovat yleensä parhaita arvioimaan kuvamateriaalin paljastumisriskiä. Esimerkiksi yksittäinen hammas ei yleensä yksilöi henkilöä, mutta koko hammaskartta luonnollisesti yksilöi.
Perinnöllinen geneettinen tieto
Perinnöllisen geneettisen tiedon osalta riittävän pientä määrää variantteja koskevat riittävän suuresta joukosta lasketut tunnusluvut voivat olla anonyymejä. Nämä on kuitenkin tarkastettava tapauskohtaisesti.
Koneoppiminen
Neuroverkkojen ja muiden koneoppimismallien (päätöspuut yms.) osalta on harvoin kyse materiaalin varsinaisesta julkaisemisesta. Kuitenkin tällaisia tuloksia halutaan tuoda tietoturvallisen Kapseli-käyttöympäristön ulkopuolelle ja näiden tarkastaminen tehdään tapauskohtaisesti. Ota yhteyttä Findataan tarkempia ohjeita varten.
Yksilötasoinen aineisto
Yksilötasoisen aineiston anonymiteetti tulee aina varmistaa tapauskohtaisesti. Ota yhteyttä Findataan tarkempia ohjeita varten.
Lähteet
- Bond et al.: Guidelines for Output Checking, available at: http://www.dwbproject.org/export/sites/default/access/doc/dwb_standalone-document_output-checking-guidelines.pdf
- Brandt et al. (2009): Guidelines for the checking of output based on microdata research, available at: https://ec.europa.eu/eurostat/cros/content/deliverablestask3-sdc_en
- Griffiths, E. et al. (2019). Handbook on Statistical Disclosure Control for Outputs, version 1.0 2019
- Hundepool, Anco; Domingo-Ferrer, Josep; Franconi, Luisa; Giessing, Sarah; Schulte-Nordholt, Eric; Spicer, Keith & de Wolf, Peter-Paul (2012). Statistical Disclosure Control. Wiley
Usein kysyttyä tulosten tarkastamisesta
Mitä tarkoitetaan henkilötiedolla?
Henkilötietoja ovat sellaiset tiedot, joiden avulla yksittäinen henkilö voidaan tunnistaa joko suoraan tai epäsuorasti. Suoran tunnistamisen mahdollistavia henkilötietoja ovat esimerkiksi nimi, henkilötunnus, henkilönimen mukainen sähköpostiosoite ja biometriset tunnisteet (kuten sormenjälki, kasvokuva, ääni, silmän iiris). Epäsuora tai välillinen tunnistaminen taas on mahdollista esimerkiksi sukupuolen, iän, koulutuksen tai kansallisuuden kautta. Näitä tietoja voidaan myös yhdistellä ja siten tunnistaa henkilö.
Suorien henkilötietojen poistaminen tai korvaaminen ei näin ollen välttämättä tarkoita sitä, ettei aineisto yhä sisältäisi henkilötietoja.
Erityisiä (tai arkaluontoisia) henkilötietoja ovat esim. etninen alkuperä, seksuaalinen suuntautuminen tai käyttäytyminen, terveystiedot, biometriset tiedot ja geneettiset tiedot. Erityissuojeltavia henkilötietoja ovat esim. psykiatriset, sosiaalihuollon, sukupuolitauti- ja perinnöllisyyslääketieteen tiedot.
Mitä tarkoitetaan anonymisoinnilla ja pseudonymisoinnilla?
Anonymisointi tarkoittaa henkilötietojen muuttamista sellaiseen muotoon, että yksittäisen henkilön tunnistaminen estyy peruuttamattomasti. Tämä voi tarkoittaa esimerkiksi suorien tunnisteiden poistamista ja lisäksi aineiston karkeistamista yleiselle tasolle siten, että henkilötietoja ei voi muuttaa enää takaisin tunnistettaviksi millään tavalla.
Pseudonymisointi tarkoittaa henkilötietojen muuttamista esimerkiksi koodattuun muotoon. Tällöin nimet ja henkilötunnukset voidaan poistaa ja korvata muulla yksilöllisellä tunnisteella eli koodilla. Usein säilytetään koodiavain, jolla tietoihin voidaan palauttaa suorat henkilötiedot. Pseudonymisoidut tiedot ovat yhä henkilötietoja.