Anonyymien tulosten tuottaminen

Tältä sivulta löydät ohjeet anonyymien tulosten tuottamiseen ja esimerkkejä ohjeen soveltamisen tueksi. Sivun lopusta löydät ohjeen tulosten julkaisuun Kapselista tai muusta tietoturvallisesta käyttöympäristöstä.

Sisällys

Johdanto Mitä anonymisointi tarkoittaa Kuvailevat tunnusluvut ja analyysit kuviot Muut tulostyypit Esimerkkejä ohjeen soveltamisen tueksi Miten tulosten anonymiteetin varmistamista voi nopeuttaa Tulosten julkaiseminen Viittausohje Ilmoita julkaistuista tuloksista Findatalle Usein kysyttyä anonymiteetin varmistamisesta

Ohje anonyymien tulosten tuottamiseen

Johdanto

Henkilötietoaineistoa käsittelevän on tuotettava tutkimustulokset anonyymissa muodossa siten, ettei yksittäisen henkilön tietoja tai ominaisuuksia paljastu.

Findata varmistaa julkaistavien tulosten anonymiteetin. Tämä koskee kaikkia tuloksia, jotka on tuotettu aineistoista, joihin on myönnetty lupa toisiolain perusteella ja jotka on käsitelty toisiolain mukaisessa tietoturvallisessa käyttöympäristössä. Anonymiteetin varmistuksesta ei peritä maksua.

Tulokset on laadittava siten, että ne noudattavat tätä ohjeistusta eri tulostyyppien osalta. Anonyymien tulosten tuottamisen tavoitteena on varmistaa tulosten tietosuoja.

Tämä ohje sisältää listan yleisimmistä tulostyypeistä ja niihin liittyvästä paljastumisriskistä. Lista ei ole kattava, ja paljastumisriskiin vaikuttavat myös aineiston ominaisuudet ja muuttujien sisältö. Joidenkin tulostyyppien anonymiteetti voidaan todeta helposti, kun taas toiset vaativat tarkempaa arviointia.

Tulosten tuottajan on itse arvioitava, että anonyymin tiedon määritelmä täyttyy. Toimita tulokset anonymiteetin varmistukseen vasta kun olet varma, että ne on tuotettu anonyymissa muodossa.

Tulosten anonymiteetin varmistaminen koostuu:

Anonyymien tulosten tuottaminen -ohjeesta
Tulosten mukana Findatalle toimitettavasta yhteenvetolomakkeesta
Findatan suorittamista tarkastuksista

Täytä yhteenvetolomake huolellisesti. Jos julkaiset tuloksia Kapselista, lomake löytyy Kapselin D-asemalta. Jos käytät toista tietoturvallista käyttöympäristöä, voit ladata lomakkeen alta. Anonymiteetin varmistaminen Findatassa perustuu vahvasti yhteenvetolomakkeessa antamiisi tietoihin. Neuvomme tarvittaessa anonyymien tulosten tuottamisessa.

Lataa lomake: Yhteenvetolomake – tulosten anonymiteetin varmistus (Word-dokumentti, 38 kt)
Katso myös: Tulosten julkaiseminen

Jos et voi tuottaa tuloksia tämän ohjeistuksen mukaisesti, mutta arvioit niiden olevan anonyymejä, toimita Findatalle perustelut anonymiteetistä tulosten mukana toimitettavassa yhteenvetolomakkeessa. Huomioi, että tapauskohtaisesti arvioitavien tulosten anonymiteetin varmistus voi kestää tavallista pidempään. Perustelujen tulee koskea ainoastaan anonymiteettia, ei esimerkiksi tutkimuksen merkittävyyttä tai tulosten julkaisemisen tärkeyttä.

Mitä anonymisointi tarkoittaa?

Anonymisointi tarkoittaa prosessia, jossa aineisto käsitellään niin, että

yksittäistä henkilöä ei voida tunnistaa suoraan tai välillisesti
yksittäistä tunnistettavaa henkilöä koskevia päätelmiä ei voida tehdä
yksittäistä henkilöä koskevia tietoja ei voida yhdistellä muuhun aineistoon.

Anonyymi aineisto tulee olla mahdotonta tai kohtuuttoman vaikeaa palauttaa muotoon, jossa yksittäinen henkilö on tunnistettavissa.

Toisiolain perusteella luovutetuista aineistoista tuotettujen julkaistavien tulosten on oltava anonyymejä (toisiolaki §52). Jos tutkimuksessa on tarve julkaista tuloksia, joita ei ole mahdollista anonymisoida, tulee tämä huomioida jo tutkimuksen suunnitteluvaiheessa. Tällöin tulee harkita, onko mahdollista toteuttaa tutkimus perustuen muuhun lainsäädäntöön kuin toisiolakiin.

Tulokset on anonymisoitava tulostyypin mukaisesti. Tämä voidaan tehdä esimerkiksi:

käyttämällä tarpeeksi karkeita luokituksia,
peittämällä, muuttamalla tai poistamalla tietoja, joihin liittyy paljastumisriski, tai
lisäämällä tietoihin epävarmuutta.

Vaikka yksittäinen tulos itsessään olisi anonyymi, useiden tulosten yhdisteleminen voi paljastaa yksittäistä henkilöä koskevia tietoja. Tyypillinen esimerkki tästä on useampien eri tietoja esittävien frekvenssitaulukoiden tuottaminen samoilla taustamuuttujien luokituksilla. Näitä yhdistelemällä voi syntyä tarkempi frekvenssitaulukko, joka voi paljastaa uusia lisätietoja taulukoiden havainnoista.

Tulosten yhdisteleminen tulee huomioida sekä käynnissä olevissa analyyseissa että aiemmissa ja tulevissa analyyseissa. Jos olet tietoinen aiemmista julkaisuista, joiden analyyseissä on käytetty samaa tai lähes samaa aineistoa tai sen osajoukkoa, huomioi nämä tulokset paljastumisriskiä arvioidessa.

Anonymiteetin varmistamiseksi lähtökohtana on, että tulokset perustuvat useamman havainnon tietoihin, ja tuloksissa esiintyvä minimifrekvenssi on kolme.

Tämä tarkoittaa, että esimerkiksi taulukon solun tai ryhmän tietojen on pohjauduttava vähintään kolmeen havaintoon.

Minimifrekvenssi-kynnysarvon käyttö on selkeä ja yksinkertainen tapa vähentää yksittäisten henkilöiden paljastumisriskiä ja varmistaa tulosten tietosuoja. Tulosten tuottajan on kuitenkin arvioitava, onko minimifrekvenssi riittävä, sillä sen täyttäminen ei aina takaa anonymiteettia. Esimerkiksi 0 % ja 100 % -solujen (kaikilla tai ei yhdelläkään henkilöllä on tietty ominaisuus) julkaiseminen edellyttää tapauskohtaista harkintaa. Jos pienen solukohtaisen frekvenssin sisältävä solu on peitetty, on myös varmistettava, ettei peitettyä arvoa päätellä taulukon muiden lukujen avulla.

Solukohtaisen frekvenssin lisäksi on huomioitava solukohtaisen perusjoukon koko. Solukohtainen perusjoukko viittaa niihin henkilöihin, jotka voisivat kuulua kyseiseen soluun tuloksissa määriteltävien ominaisuuksien perusteella (esim. tietyssä kunnassa asuvat tietyn ikäiset henkilöt). Pieni solukohtainen perusjoukko lisää soluun kuuluvien havaintojen tunnistamisen riskiä.

Findata tarvitsee riittävät taustatiedot kunkin analyysityypin osalta anonymiteetin varmistamiseksi. Ilmoita nämä tiedot, kuten havaintomäärä, johon tulokset perustuvat, yhteenvetolomakkeella.

Kuvailevat tunnusluvut ja analyysit

Käytämme anonymiteetin varmistuksen prosessin pohjana alla olevassa taulukossa kuvattuja periaatteita.

Tuloksen tyyppi	Paljastumisriski	Huomiot
Kuvailevat analyysit ja tunnusluvut
Frekvenssit	Yleensä korkea	Lähtökohtaisesti julkaistavissa, kun tuloksissa esiintyvä minimifrekvenssi on vähintään kolme. Kts. Esimerkki 1.
Maksimi, minimi, vaihteluväli	Yleensä korkea	Lähtökohtaisesti julkaistavissa, kun tunnusluvun arvo perustuu useampaan havaintoon tai yksilön paljastuminen voidaan estää muulla tavoin. Yleensä minimi ja maksimi kohdistuvat yksittäiseen havaintoon, joten nämä arvot voivat aiheuttaa paljastumisriskin. Tulosten anonymiteettiä voi parantaa jakamalla tiedot luokkiin, jolloin jokaiseen luokkaan tulee useampia yksilöitä. Minimin ja maksimin sijaan voi harkita sopivien kvantiilien käyttöä. Kts. Esimerkki 2.
Fraktiilit (kvantiilit, desiilit, persentiilit, mediaani)	Yleensä korkea	Lähtökohtaisesti julkaistavissa, kun luvun taustalla oleva havaintojen lukumäärä on riittävän suuri.
Moodi	Matala	Lähtökohtaisesti julkaistavissa, jos kaikki ryhmän jäsenet eivät saa samaa arvoa.
Keskiarvo, keskihajonta	Yleensä korkea	Lähtökohtaisesti julkaistavissa, mutta tarkastettava, että tulos kuvaa riittävän isoa joukkoa ja koko kohdejoukko ei saa samaa arvoa. Lisäksi huomioitava, ettei raportoida tunnuslukuja useammasta lähes identtisestä joukosta tai osajoukosta.
Indeksit, suhdeluvut, indikaattorit	Matala	Lähtökohtaisesti julkaistavissa, mutta käytetty laskukaava tulee ottaa huomioon. Monimutkaisemman laskukaavan indeksit (esim. Fisher Price) eivät yleensä aiheuta paljastumisriskiä, mutta hyvin yksinkertaisissa laskukaavoissa riski on mahdollinen ja lukujen taustalla tulee olla riittävästi havaintoja.
Keskittymisasteet	Matala	Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.
Korkeamman momentin tunnusluvut (varianssi, kovarianssi, huipukkuus, vinous)	Matala	Lähtökohtaisesti julkaistavissa, koska tunnusluku on selvästi muunnettu alkuperäisistä yksilön arvoista. Varmistettava, ettei julkaista pienestä joukosta liian montaa tunnuslukua, joiden avulla koko joukko voisi paljastua.
Kuviot: alkuperäisen aineiston kuvallinen esittäminen	Yleensä korkea	Kts. tarkemmat huomiot osiosta Kuviot.
Korrelaatiot ja regressiotyyppiset analyysit
Regressiokertoimet	Matala	Lähtökohtaisesti julkaistavissa.
Estimoinnin residuaalit	Yleensä korkea	Residuaalit viittaavat yhteen havaintoon, joten aiheuttaa paljastumisriskin. Kts. tarkemmat huomiot osiosta Kuviot.
Estimaattien yhteenveto- ja testisuureet (t, F, R2, χ2 etc.)	Matala	Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.
Korrelaatiokertoimet	Matala	Lähtökohtaisesti julkaistavissa, kun tarkasteltavassa joukossa on riittävän monta havaintoa.
Faktorianalyysi	Matala	Lähtökohtaisesti julkaistavissa, mutta varmistettava, ettei faktorien taustalla ole vain yksittäinen muuttuja.
Pääkomponenttianalyysi	Matala	Pääkomponenttivektorit ja niitä vastaavat ominaisarvot lähtökohtaisesti julkaistavissa. Havaintojen projektiot pääkomponenteille tarkastettava, koska vastaavat sirontakuviota. Kts. tarkemmat huomiot osiosta Kuviot.
Korrespondenssianalyysi	Matala	Lähtökohtaisesti julkaistavissa.

Taulukko 1. Tulostyyppien paljastumisriskin mukainen luokittelu.

Joukko tai kohdejoukko tarkoittaa niitä havaintoja, joista tunnuslukuja lasketaan.

Kuviot

Lähtökohtaisesti kuvioiden tietosuojan arvioinnissa aggregoitu taulukkomuotoinen esitys on helpommin hahmotettavissa kuin itse kuvio, koska kuviosta on yleensä mahdotonta nähdä jokaisen pisteen tai käyrän taustalla olevien havaintojen frekvenssejä. Tarvittaessa kuvion mukana tulee toimittaa tuloksen takana oleva taulukko, jos kuviossa kuvataan yksittäisiä havaintoja tai pientä kohdejoukkoa.

Klikkaa otsikoita lukeaksesi lisää tulostyypeistä.

Jakaumakuviot, histogrammi

Jakaumakuvioissa tulee kiinnittää erityisesti huomiota poikkeaviin havaintoihin, jotka voivat aiheuttaa paljastumisriskin. Tämä voi tuottaa haasteen erityisesti esimerkiksi normaalijakauman häntiin, jolloin on mahdollista, että koko häntää ei voida kuvata. Histogrammeissa tulee kiinnittää huomio siihen, että aineisto on luokiteltu niin, että yksittäiseen luokkaan tulee riittävästi havaintoja. Ohje on verrannollinen aineistoa kuvailevien tunnuslukujen tapaukseen.

Pylväsdiagrammi

Pylväsdiagrammeissa tulee kiinnittää huomio siihen, että kuhunkin luokkaan tulee riittävästi havaintoja. Ohje on verrannollinen aineistoa kuvailevien tunnuslukujen tapaukseen.

Hajontakuvio, sirontakuvio

Hajontakuvioissa yhden pisteen taustalla on lähtökohtaisesti yksi yksikkö, minkä vuoksi niitä ei voi julkaista ilman kuvaajan tuottamiseen käytetyn aineiston ryhmittelyä siten, että yhden pisteen taustalla on useampia havaintoja.

Hajontakuvio on julkaistavissa vain, jos sen perustana oleva data täyttäisi anonymiteettivaatimukset myös taulukkomuodossa. Arvioinnissa on kuitenkin huomioitava, mahdollistaako käytettyjen muuttujien yhdistelmä yksilön tunnistamisen.

Hajontakuvion anonymiteettiä voi parantaa korvaamalla se kuvaajalla, jossa esitetään havaintojen frekvenssiä ruudukon soluissa, tai lisäämällä pisteisiin satunnaisuutta.

Viiksilaatikko, laatikkojanakuvio (Box plot)

Viiksilaatikot aiheuttavat lähtökohtaisesti paljastumisriskin, koska ne sisältävät yksittäiseen havaintoon kohdistuvia kuvapisteitä. Erityisesti poikkeaviin havaintoihin voi kohdistua paljastumisriski. Myös keskiarvon julkaiseminen voi aiheuttaa paljastumisriskin. Viiksilaatikkoihin sovelletaan samoja ohjeita kuin aineistoa kuvaileviin tunnuslukuihin.

Residuaalit

Residuaalit viittaavat yhteen havaintoon. Residuaalien kuvaamisessa tulisi käyttää kuvaajan muotoa yksittäisiin pisteisiin perustuvan kuvaajan sijasta. Jos käytetään yksittäisiin pisteisiin perustuvaa kuvaajaa, tulisi akseleiden arvojen esittämistä välttää.

Elinaika-analyysi, Kaplan-Meier-kuvaaja

Elinaika-analyysin paljastumisriski riippuu analyysin määrityksestä. Lähtökohtaisesti tulokset ovat julkaistavissa, jos jokainen kuvaajan askel vastaa riittävän montaa havaintoa. Yksittäisiäkin askeleita voidaan sallia, jos on selvää, ettei kuvaajan taustalla olevien tietojen avulla voida päätellä täsmällisiä ikiä tai kalenteriajan hetkiä. Näissä tapauksissa on kuitenkin arvioitava, kuinka hyvin kuvaajan taustatiedot yksilöivät henkilöitä

Kts. Esimerkki 3.

Spatiaalinen analyysi

Spatiaalinen analyysi on tietosuojan kannalta erityisen haastava, koska sijaintitieto on usein keskeinen tieto yksilön tunnistamisen kannalta. Spatiaalisen analyysin tulosten julkaiseminen edellyttää yleensä sijaintitiedon uudelleenluokittelua ja esittämistä lämpökarttoina yksittäisten havaintopisteiden sijaan.

Sankey-kuvaajat

Sankey-kuvaajien eli virtausdiagrammien tietosuojaan vaikuttaa se, mitä tietoa kuvaajassa esitetään. Jos kuvaaja sisältää tarkkoja lukumääriä, siihen sovelletaan samoja ohjeita kuin aineistoa kuvaileviin tunnuslukuihin.

Kts. Esimerkki 4.

Muut tulostyypit

Klikkaa otsikoita lukeaksesi lisää tulostyypeistä.

Kuvat ja muut kuvantamisen materiaalit

Kuvantamisen materiaalien tietosuojariski arvioidaan tapauskohtaisesti. Materiaaleissa ei saa olla yksittäiseen henkilöön viittavia tunniste- tai metatietoja. Tunnistamisriskiä voidaan vähentää esimerkiksi rajauksilla ja resoluution alentamisella. Jos kuvantamisen materiaaleihin voidaan yhdistää muuta tietoa, tämä lisää tunnistamisen riskiä.

Lisätietoja kuva- ja signaalitietojen anonymisoinnista löytyy STM:n korkean tason asiantuntijaryhmän periaatelinjauksesta: Kuva- ja signaalitiedon anonymisointi ja anonymiteetti sosiaali- ja terveystietojen toissijaisesta käytöstä annetun lain (522/2019) mukaisessa käsittelyssä (stm.fi, PDF-tiedosto, 248 kb)

Genomitietoon perustuvat tulokset

Genomitietoon perustuvien tulosten anonymiteetti arvioidaan aina tapauskohtaisesti.

1. Harvinaiset yksittäiset geneettiset variaatiot

Merkittävien harvinaisten geneettisten löydösten julkaiseminen on lähtökohtaisesti mahdollista, jos löydös esiintyy vähintään kolmella tutkittavalla. Jos geneettinen variaatio ilmenee alle kolmella tutkittavalla, tulee tarkka määrätieto esimerkiksi peittää.

Tuloksia julkaistaessa tulee kiinnittää erityistä huomiota tutkittavien tunnistettavuuteen ja arvioida tapauskohtaisesti, riittääkö minimifrekvenssin n=3 käyttäminen estämään tutkittavien tunnistamisen. Mitä pienempää kohdejoukkoa tutkitaan ja mitä enemmän tutkittavista kerrotaan taustatietoa, esimerkiksi sairauden ilmiasusta (fenotyypistä), tai maantieteellisestä alueesta, jolta tutkittavien kohdejoukko on kerätty, tutkittavien tunnistettavuus lisääntyy merkittävästi.

Yksittäisistä tutkittavista ei saa julkaista

tarkkaa ikää,
tarkkaa kuvailua tutkittavan ilmiasusta,
sairaushistoriaa,
tarkkaa maantieteellistä aluetta, jolta tutkittavat on kerätty tai
muuta tietoa, joka vaarantaa tutkittavien anonymiteetin.

Geneettisten variaatioiden ominaisuuksista kertovat tiedot voidaan julkaista, jos kyseiset tiedot löytyvät jo julkisista varianttitietokannoista, kuten:

alleelin frekvenssitiedot,
variantin kliininen merkittävyys,
variantin identifioiva rs-numero, tai
tutkimusmenetelmä, jolla geneettinen löydös on havaittu.

Harvinaiset geneettiset löydökset voidaan julkaista esimerkiksi taulukon 2 mukaisesti.

Causal gene	Disorder	Patient N	Zygosity of variant	Reference transcript	DNA variant	Protein variant	Molecular consequence	Pathogenicity classification	db SNP ID	gnomAD MAF, European	gnomAD MAF, Finnish	SpliceAI	phyloP	CADD
EPHA2	Lung cancer	<3	Heterozygous	NM_004431.5	c.1171G>C	p.Gly291Arg	missense variant	Likely pathogenic	rs34192549	0.01679	0.00947	0.0100	0.135	6.37
NRAS	Lung cancer	5	Heterozygous	NM_002524.5	c.183A>C	p.Gln61His	missense variant	Pathogenic/Likely pathogenic	rs121913255	NA	NA	NA	NA	NA
DDR2	Lung cancer	<3	Heterozygous	NM_006182.4	c.716T>G	p.Leu239Arg	missense variant	Likely pathogenic	rs578015216	0.000	0.000	0.000	6,32	24.5

Taulukko 2. Esimerkki harvinaisten geneettisten löydösten raportoinnista

2. Geneettiset variaatiot, jotka eivät esiinny tutkittavan omassa perimässä

Aikaan sidoksissa olevat geneettiset mutaatiot, jotka eivät esiinny tutkittavan omassa perimässä vaan ilmenevät esimerkiksi syöpäkasvaimessa, voidaan julkaista potilaskohtaisesti.

Tuloksia julkaistaessa tulee kuitenkin kiinnittää erityistä huomiota yksittäisten henkilöiden tunnistamisriskiin. Yksittäisistä henkilöistä ei voi julkaista

tarkkaa ikää,
tarkkaa kuvailua henkilön ilmiasusta,
sairaushistoriaa,
tarkkaa maantieteellistä aluetta, jolta kohdejoukko on kerätty tai
muuta tietoa, joka vaarantaa henkilön anonymiteetin.

Mikäli mutaatioita tai henkilöitä on mahdollista luokitella ryhmiin, tulee tulokset esittää ensisijaisesti tässä muodossa.

3. Sukututkimukset

Tuloksia julkaistaessa tulee kiinnittää erityistä huomiota suvussa esiintyvien henkilöiden anonymiteettiin. Sukututkimuksissa ilmenevät periytyvät geneettiset muutokset voidaan julkaista ja esittää esimerkiksi sukupuuna kuvion 1 mukaisesti.

Sukupuussa esiintyvistä henkilöistä ei saa esittää muuta tarkkaa taustatietoa, kuten

ikää,
ajankohtaa, jolloin geneettiset muutokset on löydetty,
maantieteellistä aluetta, jolta sukuhistoria on kerätty tai
muuta tietoa, joka vaarantaa suvun anonymiteetin.

Mitä enemmän tietoa yksittäisistä henkilöistä kuvassa kerrotaan, sitä suuremmaksi paljastumisriski kasvaa. Hyvin harvinaisten sairauksien kohdalla on mahdollista, että sukupuuta ei voida julkaista anonyymissa muodossa.

Kuvio 1. Esimerkki sukupuun raportoinnista

Tekoäly- ja koneoppimismallit

Jos tekoäly- tai koneoppimismalli/algoritmi itsessään on tutkimuksen julkaistava tulos, sen anonymiteettiin tulee kiinnittää huomiota jo kehitysvaiheessa. Mallin anonymiteetti tulee voida todistaa, jotta se voidaan julkaista. Jokaisen mallin anonymiteetti arvioidaan tapauskohtaisesti.

Kun malli toimitetaan anonymiteetin tarkastukseen, Findatalle tulee toimittaa myös tekoäly- ja koneoppimismallien anonymiteettilomake. Lomakkeeseen kannattaa tutustua huolellisesti jo mallin suunnitteluvaiheessa, jotta anonymiteettiin vaikuttavat tekijät voidaan huomioida jo kehitysvaiheessa.

Lataa lomake: Tekoäly- ja koneoppimismallien anonymiteettilomake (Word-tiedosto, 50,6 kt)

Anonymiteettiin vaikuttavat tekijät:

Mallin ominaisuudet, kuten mallin tyyppi ja opetettavien parametrien määrä
Mallin opetukseen käytetyn aineiston piirteet, kuten sen määrä, sisältö, muoto ja mahdollinen käsittely kuten anonymisointi
Mallin yleistämiskyky ja suoriutuminen tehtävästä, jota varten se on koulutettu.

Jos mallia on koulutettu käyttäen ainoastaan anonyymia opetusmateriaalia, myös itse mallin voidaan katsoa olevan anonyymi.

Mallin anonymiteetti voidaan varmistaa käyttämällä sen koulutuksessa differentiaalista tietosuojaa. Käytettyjen differentiaalisen tietosuojan parametrien valintaan ei ole yksiselitteisiä ohjeita, vaan ne tulee määritellä tapauskohtaisesti ja valinta on perusteltava.

Pienet arvot kuten

missä N on yksilöiden lukumäärä käytetyssä aineistossa, tuottavat matemaattisesti vahvan suojan, mutta tapauksesta riippuen myös suuremmat arvot saattavat riittää.

Pääsääntöisesti mallin opetusmateriaaliin ei tulisi sisällyttää aineistoa, joka sisältää yksilötasoisia suoria tunnisteita. Malli, jonka parametreihin on sisällytetty yksilöön viittaavia tietoja ymmärrettävässä muodossa (esimerkiksi tekstinä), ei täytä anonymiteetin kriteereitä. Mallin kehitysprosessissa tulee huomioida riittävät toimet mallin yleistämiskyvyn arviointiin.

Yksilötasoinen aineisto

Julkaistavien tulosten tulee lähtökohtaisesti pohjautua useampaan havaintoon. Jos on tarve julkaista tulosaineistoa, joka on kokonaisuudessaan yksilötasoista, sen tulee täyttää anonyymin tiedon määritelmä (kts. Mitä anonymisointi tarkoittaa?).

Yksilötasoisen anonyymin aineiston tuottamiseen tarvitaan yleensä kehittyneitä menetelmiä, kuten differentiaalista tietosuojaa. Yksilötasoisen aineiston anonymiteetti on aina varmistettava tapauskohtaisesti.

Synteettinen tulosaineisto

Synteettisen aineiston anonymiteettiin vaikuttavat:

Syntetisointimenetelmä
Pohja-aineiston ominaisuudet, jos synteettinen aineisto on tuotettu henkilötietoaineistosta

Se, että julkaistava aineisto on synteettistä, ei yksin riitä takaamaan sen anonymiteettiä. Anonymiteetin varmistaminen riippuu aineiston tuottamismenetelmästä ja sen monimutkaisuudesta. Jos tarkoituksena on muodostaa anonyymia synteettistä dataa, anonymiteetin varmistaminen on huomioitava jo prosessia kehittäessä.

Synteettisen tulosaineiston anonymiteetti tulee aina varmistaa tapauskohtaisesti.

Laadullisen tutkimuksen tulokset

Laadullisilla tutkimusmenetelmillä tuotettujen tulosten tulee täyttää anonyymin tiedon määritelmä.

Jos mahdollista, julkaistavissa tuloksissa tulisi käyttää minimifrekvenssiä kolme tietosuojan varmistamiseksi. Jos tämä ei ole mahdollista, tulokset tulee käsitellä niin, ettei yksittäistä henkilöä voi tunnistaa suoraan tai välillisesti.

Kohdejoukon muodostamismenetelmä vaikuttaa tunnistamisriskiin. Tunnistamisriski on suurempi, jos kohdejoukko sisältää kaikki tietyt kriteerit täyttävät henkilöt verrattuna tilanteeseen, jossa kohdejoukko on satunnaisesti tai otannalla valikoitunut.

Erityisesti tekstilainausten julkaisemisen yhteydessä on huomioitava, ettei lainaus mahdollista yksittäisen henkilön tai tapahtuman tunnistamista. Tunnistamisriski kasvaa, jos lainaus sisältää yksittäistä henkilöä tai tapahtumaa koskevia yksityiskohtia, tai koskee harvinaista ilmiötä.

Laadullisen aineiston anonymisoinnista ja anonymisointimenetelmistä löytyy lisätietoa Tietoarkiston sivuilta: Laadullisen aineiston anonymisointi (fsd.tuni.fi).
Kts. esimerkki 5

Esimerkkejä ohjeen soveltamisen tueksi

Esimerkki 1. Frekvenssitaulukko ja toissijainen paljastuminen

Frekvenssitaulukossa solun tietojen tulee pohjautua vähintään kolmeen havaintoon. Jos havaintojen määrä on tätä pienempi, tulee tarkka lukuarvo peittää. Alle kolmeen havaintoon viittaavan tiedon voi peittää esimerkiksi merkinnällä ”<3”.

Peitettyä arvoa ei tule pystyä laskemaan auki taulukon muiden lukujen avulla. Jos taulukon muiden lukujen avulla pystyy päättelemään peitetyn frekvenssin tarkan arvon, tulee myös muita lukuja peittää.

Esimerkki 1.1.

Alla olevassa taulukossa solussa Vuosi 3 on alle kolmeen henkilöön pohjautuva havainto, joka tulee peittää.

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä a, n	0	12	1	13

Pelkkä pienen havaintoarvon peittäminen ei kuitenkaan riitä, sillä muiden lukuarvojen avulla pystyy laskemaan sen tarkan arvon auki. Pienen havaintoarvon auki laskemisen voi estää karkeistamalla kokonaismäärän tai toisen havaintoarvon tarkan lukuarvon alla olevan mukaisesti. Tällöin solujen Vuosi 2 ja Kokonaismäärä avulla pystytään päättelemään, että Vuosi 3 -solu voi saada arvoksi 1 tai 2, mutta tarkkaa arvoa ei tiedetä.

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä a, n	0	12	<3	13–14

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä a, n	0	>10	<3	13

Lukuarvoa nolla ei tarvitse lähtökohtaisesti peittää, sillä kyseinen tieto ei viittaa keneenkään yksittäiseen henkilöön.

Esimerkki 1.2.

Alla olevassa taulukossa on kahdessa solussa alle kolmeen henkilöön pohjautuva havainto (n=1), jotka molemmat tulee peittää.

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä b, n	1	3	1	5

Vaikka molemmat havaintoarvot peitettäisiin merkinnällä <3, on solujen Vuosi 2 ja Kokonaismäärä avulla kuitenkin pääteltävissä, että molempien peitettyjen solujen arvo on 1. Tässä tapauksessa pienten havaintoarvojen auki laskemisen voi estää esimerkiksi peittämällä kaikki kolme havaintoarvoa merkinnällä ≤3.

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä b, n	≤3	≤3	≤3	5

Tilanne olisi toinen jos kokonaismäärä olisi esimerkiksi 6 (kuten alla olevan esimerkin 1.3. taulukossa). Tällöin <3-merkinnällä peitetyistä kahdesta solusta ei olisi pystynyt päättelemään kumpi saa lukuarvon 1 ja kumpi lukuarvon 2.

Esimerkki 1.3.

Alle kolmeen henkilöön pohjautuvat havainnot voivat paljastua myös suhteellisten osuuksien avulla. Vaikka alla olevasta esimerkistä peitettäisiin pienet frekvenssit merkinnällä <3, on suhteellisten osuuksien ja kokonaismäärän avulla mahdollista laskea auki solujen Vuosi 1 ja Vuosi 2 tarkat arvot.

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä c, n	1	3	2	6
Ryhmä c, %	17,7	50	33,3	100

Tässä tapauksessa siis myös suhteelliset osuudet tulee peittää.

	Vuosi 1	Vuosi 2	Vuosi 3	Kokonaismäärä
Ryhmä c, n	<3	3	<3	6
Ryhmä c, %	≤33	50,0	17–33	100

Esimerkki 2. Minimi ja maksimi

Minimi- ja maksimiarvot kohdistuvat yleensä yksittäiseen havaintoon, joten ne voivat sisältää paljastumisriskin erityisesti niissä tapauksissa, kun ryhmän koko on pieni ja/tai yksittäiset havainnot ovat hyvin poikkeavia. Minimi- ja maksimiarvot voidaan julkaista, jos tunnusluvun arvo perustuu useampaan havaintoon tai yksilön paljastumisriski voidaan estää muulla tavoin.

Esimerkiksi esitettäessä tunnuslukuja tutkittavien pituudesta, voivat poikkeuksellisen lyhyet tai pitkät henkilöt erottua joukosta kasvattaen yksilön paljastumisriskiä. Alla olevan taulukon mukaisessa ryhmässä, jossa keskipituus on 168 cm, erottuu 195 cm mittaisen henkilön lukuarvo poikkeuksellisena joukosta. Poikkeuksellisia ominaisuuksia omaavat henkilöt jäävät helposti myös ihmisten mieleen, jolloin kyseisen henkilön paljastumisriski on suurempi.

	Pituus, cm
Henkilö 1	162
Henkilö 2	162
Henkilö 3	170
Henkilö 4	157
Henkilö 5	195
Henkilö 6	166
Henkilö 7	171
Henkilö 8	164

Tulosten anonymiteettiä voi parantaa jakamalla tiedot luokkiin, jolloin jokaiseen luokkaan tulee useampia yksilöitä. Minimin ja maksimin rinnalla voi harkita sopivien kvantiilien käyttöä.

Esimerkki 3. Kaplan Meier -kuvaaja

Kaplan-Meier-kuvaajan ja sen tausta-aineiston voi julkaista, jos kuvaajan taustalla olevien tietojen avulla ei voida päätellä täsmällisiä kalenteriajan hetkiä tai yksittäisten henkilöiden ominaisuuksia, kuten ikää. Tällöin kuvaajassa voidaan sallia yksittäisiäkin askeleita.

Kuvion 2 kuvaajan voi julkaista, koska sen perusteella ei voi tunnistaa yksittäisiä henkilöitä eikä päätellä täsmällisiä kalenteriajan hetkiä.

Kuvio 2. Esimerkki: Kaplan Meier -kuvaaja. Lähde: Tutkijaportti.fi, PDF-tiedosto, 1 335 kt

Esimerkki 4. Sankey-kuvaaja

Jos Sankey-kuvaaja kuvaa tarkkoja lukumääriä, tulee tuloksissa huomioida minimifrekvenssi. Kuvion 3 tietoja ei voi julkaista ilman anonymisointia, kuten uudelleen luokittelua, koska kuviosta tulee esille tarkat n< 3 frekvenssit.

Esimerkki 5. Yksilötasoinen aineisto ja laadullinen tutkimus

Lähtökohtaisesti julkaistavien tulosten tulee pohjautua useampaan havaintoon. Tämä koskee myös laadullisia tutkimuksia. Jos on kuitenkin tarve julkaista yksilötasoista tulosaineistoa, tulee tulokset käsitellä niin, ettei tulosaineistosta voi tunnistaa yksittäistä henkilöä.

Erityisesti tekstilainauksissa tunnistamisriski kasvaa, jos lainaus sisältää yksittäistä henkilöä tai tapahtumaa koskevia yksityiskohtia, tai koskee harvinaista ilmiötä. Alla olevassa kuvitteellisessa tekstilainauksessa on potilaan nimen lisäksi paljon muutakin yksilöivää tietoa.

13-vuotias Eero Esimerkki tuotiin hoidettavaksi Turun yliopistolliseen keskussairaalaan hänen kaaduttuaan Turun Yhteiskoulun pihassa. E.E. sairastaa hemofilia A:ta. E.E:n tutkinut gastroenterologi teki lähetteen…

Tekstilainauksissa yksityiskohtia voi peittää kategorisoimalla, jolloin tunnistamisriskiä saadaan pienennettyä.

[Yläkouluikäinen] [potilas] tuotiin hoidettavaksi [yliopistolliseen keskussairaalaan] hänen kaaduttuaan [koulunsa] pihassa. [Potilas] sairastaa [vaikeaa pitkäaikaissairautta]. [Potilaan] tutkinut [lääkäri] teki lähetteen…

Miten tulosten anonymiteetin varmistamista voi nopeuttaa

Anonyymien tulosten tuottajan tarkastuslista

Käytä tarkastuslistaa apuna ennen kuin toimitat julkaistavia tuloksia anonymiteetin varmistukseen.	Tehty ✓
Olen lukenut Findatan anonyymien tulosten tuottaminen -ohjeen.
Olen täyttänyt yhteenvetolomakkeen huolellisesti.
Tulokset täyttävät anonyymin tiedon määritelmän.
Tulokset eivät sisällä suoria tunnisteita (esim. nimi, henkilötunnus).
Tulokset eivät sisällä vahvoja, epäsuoria tunnisteita (esim. osoite, rekisteröintinumero).
Tulokset eivät sisällä pseudotunniste-koodeja (esim. Findatan FID).
Tulokset eivät sisällä solukohtaisia frekvenssejä n< 3. Jos tulokset sisältävät solukohtaisia frekvenssejä n< 3, olen perustellut tulosten anonymiteetin.
Jos pieniä frekvenssejä on peitetty, peitettyjä arvoja ei voi päätellä muiden tulosten avulla.
Tulokset eivät sisällä yksilötasoista tai yhteen henkilöön viittaavaa tietoa (esim. minimi, maksimi). Jos tulokset sisältävät tällaista tietoa, olen perustellut tulosten anonymiteetin.
Olen arvioinut tulosten anonymiteetin erityistä huolellisuutta käyttäen, jos tulokset sisältävät: Tekoäly/ koneoppimismallin Kuvia tai muuta kuvantamisen materiaalia Geneettistä tai genomitietoa Synteettistä tulosaineistoa

Näin nopeutat tulosten anonymiteetin varmistamista:

Lue tämän sivun ohjeet huolellisesti läpi. Varmista, että tuottamasi tulokset noudattavat ohjeita.
- Ole tarvittaessa yhteydessä Findatan neuvontaan (info@findata.fi), jos tarvitset apua ohjeiden soveltamiseen.
Täytä yhteenvetolomake huolellisesti ja huomioi lomakkeen kaikki kohdat.
- Jos tuottamasi tulokset eivät ole kaikkien väittämien mukaisia, perustele, miksi tulosten voidaan silti katsoa olevan anonyymejä. Huomaathan, että ilman päteviä perusteluja, tällaisia tietoja ei voi julkaista.
Tuota tulokset muodossa, joka mahdollistaa anonymiteetin varmistuksen.
- Varmista, että kaikki muuttujat on kuvattu nimillä, jotka tutkimuksen ulkopuolinen henkilö voi ymmärtää.
- Huolehdi, että tulostyyppi tulee selkeästi esille (eli onko kyseessä esim. frekvenssi, regressiokerroin tai joku muu testisuure).
Pyydä tuloksia ulos käyttöympäristöstä järkevän kokoisessa paketissa.
- Yksittäisiä tulospaketteja ei kannata toimittaa usein (esim. joka päivä). Tulospakettien käsittely useana eri toimituksena vie enemmän aikaa tietojen siirron ja kommunikoinnin osalta.
- Suuri tulosten määrä pidentää tarkastusaikaa. Lähtökohtaisesti suosittelemme toimittamaan tulokset enintään 50 tiedoston paketeissa. Todella laajan, satoja tiedostoja/välilehtiä sisältävän tulospaketin käsittely on työlästä, erityisesti, jos tulosten anonymiteetin osalta on huomautettavaa.
Toimita tulokset yleisesti käytössä olevassa tiedostomuodossa kuten Word, pdf, Excel, csv, JPEG, TIFF, tai PNG.
- Jos emme pysty aukaisemaan toimittamaasi tiedostoa, joudumme pyytämään uudelleen toimituksen muussa tiedostomuodossa.

Lähteet

Brandt et al. (2009): Guidelines for the checking of output based on microdata research (PDF-tiedosto,
755 kt)
European Data Protection Board: Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context on AI models (edpb.europa.eu)
Green, E. et al. (2020). Understanding output checking (PDF-tiedosto, 1 121 kt)
Griffiths, E. et al. (2019). Handbook on Statistical Disclosure Control for Outputs, version 1.0. 2019.
Hundepool, Anco; Domingo-Ferrer, Josep; Franconi, Luisa; Giessing, Sarah; Schulte-Nordholt, Eric; Spicer, Keith & de Wolf, Peter-Paul (2012). Statistical Disclosure Control.
Ponomareva et al. (2023). How to DP-fy ML: A Practical Guide to Machine Learning with Differential Privacy. Journal of Artificial Intelligence Research Vol. 77, 2023.
SankeyMATIC, 2024 (sankeymatic.com)
Sosiaali- ja terveysministeriö: Pseudonymisointi, anonymisointi ja suorien tunnisteiden käyttö Sosiaali- ja terveystietojen toissijaisesta käytöstä annetun lain (522/2019) mukaan (PDF-tiedosto, 418 kt).

Tulosten julkaiseminen

Julkaisemisella tarkoitetaan tässä yhteydessä tiedon tuomista julkisuuteen ja sen levittämistä ympäröivään yhteiskuntaan. Julkaisemiseksi katsotaan tulosten esitteleminen oman työryhmän ulkopuolelle.

Julkaiseminen voi tapahtua tieteellisessä tai muussa lehdessä, opinnäytetyössä, oppi- tai käsikirjassa, konferenssi tms. esityksessä tai abstraktissa, raportissa, selvityksessä tai jossain muodossa internetissä.

Tulosten julkaiseminen Kapselista

Aineistojen käsittely tapahtuu Kapseli-käyttöympäristössä ja vain valmiit analyysitulokset tuodaan järjestelmän ulkopuolelle. Käyttäjä tuottaa tulokset anonyymissa muodossa ja Findata varmistaa toisiolain mukaisesti tulosten anonymiteetin.

Tarkista tulosten anonymiteetti. Katso ohjeet: Anonyymien tulosten tuottaminen
Siirrä tulokset Findatalle Kapselin Output-aseman kautta.
Täytä yhteenvetolomake, joka löytyy Kapselin D-asemalta kansiosta Käyttöohjeet_User_guide_05062023.
Pakkaa tulokset ja yhteenvetolomake zip-kansioon ja nimeä se näin: Tulokset_tietoluvan_diaari_käyttöympäristön_tunniste_siirtopäivämäärä (anna päivämäärä muodossa ppkkvvvv, esim. Tulokset_THL_1234_14.02.00_2020_a01_15032022).
Luo Output-asemalle tyhjä tekstitiedosto ja anna sille nimeksi: ZZZ_READY.txt
- Tämä varmistaa, että zip-kansio siirtyy automaattisesti Findatalle.
- Siirrot tapahtuvat tasatunnein ja puolen tunnin välein.
- Siirron jälkeen tiedostot poistuvat automaattisesti Output-asemalta.
Siirron ilmoitus (vapaaehtoinen) – voit halutessasi ilmoittaa siirrosta sähköpostitse osoitteeseen data@findata.fi.
- Olemme yhteydessä, jos siirto ei ole tullut perille. Onnistuneesta siirrosta ei tule kuittausta.
Tilaa Nextcloud-tunnukset, jos sinulla ei ole niitä.
- Tilaus tehdään asiointipalvelussa (asiointi.findata.fi) täyttämällä lomake ”Uuden Nextcloud-tunnuksen tilaus”.
Findata tarkastaapyynnöt viiden arkipäivän sisällä ja toimittaa tulokset siirtopalvelu Nextcloudin välityksellä käyttäjälle.
- Jos tulokset ovat laajoja, anonymiteetin tarkistaminen voi kestää yli viisi arkipäivää. Katso vinkit tulosten anonymiteetin varmistuksen nopeuttamiseen sivun alusta.
- Huomioithan, että nämä aikarajat koskevat vain tulosten siirtoa, eivät esim. kooditiedostojen viemistä Kapselista.

Tulosten julkaiseminen muista tietoturvallisista käyttöympäristöistä

Jos käsittelet aineistoja muussa tietoturvallisessa käyttöympäristössä kuin Findatan Kapselissa ja olet valmis julkaisemaan tuloksia, toimi alla olevien ohjeiden mukaisesti.

Lataa yhteenvetolomake ja täytä pyydetyt tiedot.
- Lataa lomake: Yhteenvetolomake – tulosten anonymiteetin varmistus (Word-tiedosto, 38 kt)
Pakkaa tulokset ja yhteenvetolomake zip-kansioon ja nimeä se seuraavasti:
- Tulokset_tietoluvan_diaari_käyttöympäristön_tunniste_siirtopäivämäärä (anna päivämäärä muodossa ppkkvvvv, esim. Tulokset_THL_1234_14.02.00_2020_a01_15032022)
Tulokset voi toimittaa Findataan kahdella tavalla:
- Jos sinulla on olemassa oleva Nextcloud-tunnus, toimita tulokset Nextcloudin välityksellä
- Muussa tapauksessa, toimita tulokset turvasähköpostilla
- HUOM! Älä lähetä tulostiedostoja Findatalle tavallisen sähköpostin liitetiedostona.
Ota yhteys Findataan osoitteeseen data@findata.fi.
- Kirjoita viestin otsikoksi: Tulosten anonymiteetin varmistus
- Ilmoita viestissä, toimitatko tuloksia siirtopalvelu Nextcloudin välityksellä vai turvasähköpostilla.
- Jos toimitat tuloksia Nextcloudin välityksellä, kirjoita viestiin tietoluvan diaarinumero ja Nextcloud-tunnuksesi. Saat Findatalta kansion nimen, johon voit toimittaa tulokset ja yhteenvetolomakkeen sisältävän zip-kansion.
Jos toimitat tuloksia turvasähköpostilla, saat Findatalta turvasähköpostin, johon vastaamalla voit toimittaa tulokset ja yhteenvetolomakkeen sisältävän zip-kansion salattuna.
- Lisäohjeet salauksesta ja aineiston toimittamisesta Nextcloudilla löydät sivulta Aineistojen toimittaminen Findatalle.
Jos tulosten anonymiteetin osalta on huomautettavaa, olemme yhteydessä seitsemän arkipäivän sisällä tulosten toimittamisesta.
- Jos et kuule meistä seitsemän arkipäivän sisällä tulosten toimituksesta, voit edetä tulosten julkaisun osalta.

HUOM! Tilastokeskuksen Fiona-etäkäyttöympäristöstä 18.3.2025 jälkeen ulos tuotuja tuloksia ei tarvitse toimittaa erikseen Findatalle anonymiteetin varmistukseen.

Viittausohje

Jos Findata on myöntänyt hankkeelle tietoluvan tai tehnyt tietopyyntöpäätöksen, viittaa julkaisuissa Findataan seuraavasti: ”Sosiaali- ja terveysalan tietolupaviranomainen Findata” tai ”Finnish Social and Health Data Permit Authority Findata”.

Noudata tieteellisen julkaisusarjan kirjoitusohjeita.
Suosittelemme, että Findataan viitataan sen lakisääteisten tehtävien mukaisesti. Tietoluvissa näitä ovat esimerkiksi pseudonymisointi ja tulosten anonymiteetin varmistaminen, tietopyynnöissä aineistojen yhdistäminen, aggregointi ja anonymisointi.
Findataan voi viitata tekstissä, taulukoissa, kuvissa, lupaluetteloissa, kiitoksissa ja viiteluettelossa.
Sisällytä viittauksiin mahdollisuuksien mukaan tietoluvan tai tietopyynnön diaarinumero(t).

Esimerkkejä viittauksesta tekstissä

”Tutkimusaineisto saatiin sosiaali- ja terveysalan tietolupaviranomaiselta Findatalta tietoluvalla THL/XXXX/14.XX.00/20XX. Findata vastasi aineiston pseudonymisoinnista ja tulosten anonymiteetin varmistamisesta.”

”The research data was obtained from Findata, the Finnish Social and Health Data Permit Authority, with data permit THL/XXXX/14.XX.00/20XX. Findata was responsible for the pseudonymization of the data and ensuring the anonymity of the final results.”

”Tilastotiedon on tuottanut sosiaali- ja terveysalan tietolupaviranomainen Findata tietopyynnöllä THL/XXXX/14.XX.00/20XX. Findata vastasi aineiston yhdistämisestä ja anonyymin tilastotiedon tuottamisesta.”

The statistics were produced by Findata, the Finnish Social and Health Data Permit Authority, with data request THL/XXXX/14.XX.00/20XX. Findata was responsible for data integration and producing the anonymized statistics.”

Esimerkki viittauksesta taulukossa

Aineisto	Lähde
Tutkimusaineisto	Sosiaali- ja terveysalan tietolupaviranomainen Findata, tietolupa THL/XXXX/14.XX.00/20XX

Esimerkki viittauksesta viiteluettelossa

Findata. (Vuosi). Tietolupa THL/XXXX/14.XX.00/20XX. Sosiaali- ja terveysalan tietolupaviranomainen Findata.

Findata. (Year). Data permit THL/XXXX/14.XX.00/20XX. Finnish Social and Health Data Permit Authority Findata.

Ilmoita julkaistuista tuloksista Findatalle

Tällä lomakkeella voit ilmoittaa artikkeleista ja julkaisuista, joissa on hyödynnetty Findatalta haettua aineistoa. Yksi tieteellisen tutkimuksen käyttötarkoituksen kriteereistä luvan myöntämiselle on, että tulokset julkaistaan tieteellisinä julkaisuina. Lomakkeella voi ilmoittaa myös muihin käyttötarkoituksiin haettujen aineistojen julkaisuista. Jos ilmoitettavia julkaisuja on paljon, voit lähettää tiedot Excel-tiedostona osoitteeseen info@findata.fi. Tällöin alla olevaa lomaketta ei tarvitse täyttää.

Lupapäätöksen diaarinumero(Pakollinen)

Diaarinumero löytyy Findatalta saamastasi sähköpostista ja päätösdokumentista. Se on muotoa THL/XXXX/1X.0X.00/20XX.

Täytä alla olevaan kenttään tiedot kaikista niistä julkaisuista, joissa on hyödynnetty kyseiseen lupaan perustuvaa aineistoa(Pakollinen)

Anna julkaisuista seuraavat tiedot: artikkelin otsikko; julkaisija / julkaisusarjan nimi; linkki julkaisuun. Voit käyttää organisaatiossasi käytössä olevaa viittaustyyliä ja lisätä halutessasi esim. kirjoittajat.

Haluatko ilmoittaa lisää julkaisuja, joissa on käytetty jonkin muun Findatan lupapäätöksen tai -päätösten mukaista aineistoa?(Pakollinen)

Kyllä, ilmoitan myös muista julkaisuista

Ei kiitos, tämä riittää tällä kertaa

Täytä alla olevaan kenttään Findatan luvan diaarinumero(t) ja tiedot julkaisuista

Anna luvan diaarinumero ja lisää sen perään tiedot kaikista niistä julkaisuista, joissa on käytetty kyseisen luvan aineistoa. Voit täyttää usean luvan tiedot tähän samaan kenttään.

Kenttä on validointitarkoituksiin ja tulee jättää koskemattomaksi.

Usein kysyttyä anonymiteetin varmistamisesta

Mitä tarkoitetaan henkilötiedolla?

Henkilötietoja ovat sellaiset tiedot, joiden avulla yksittäinen henkilö voidaan tunnistaa joko suoraan tai epäsuorasti.

Suoran tunnistamisen mahdollistavia henkilötietoja ovat esimerkiksi

nimi,
henkilötunnus,
henkilönimen mukainen sähköpostiosoite ja
biometriset tunnisteet, kuten sormenjälki, kasvokuva, ääni ja silmän iiris.

Epäsuoran tai välillisen tunnistamisen mahdollistavia henkilötietoja ovat esimerkiksi

sukupuoli,
ikä,
koulutus tai
kansallisuus.

Epäsuoria tai välillisiä tietoja voidaan myös yhdistellä ja siten tunnistaa henkilö. Suorien henkilötietojen poistaminen tai korvaaminen ei näin ollen välttämättä tarkoita sitä, ettei aineisto yhä sisältäisi henkilötietoja.

Erityisiä (tai arkaluontoisia) henkilötietoja ovat esimerkiksi

etninen alkuperä,
seksuaalinen suuntautuminen tai käyttäytyminen,
terveystiedot,
biometriset tiedot ja
geneettiset tiedot.

Erityissuojeltavia henkilötietoja ovat esimerkiksi

psykiatriset tiedot,
sosiaalihuollon tiedot sekä
sukupuolitauti- ja perinnöllisyyslääketieteen tiedot.

Mitä tarkoitetaan anonymisoinnilla ja pseudonymisoinnilla?

Anonymisointi tarkoittaa aineiston käsittelemistä niin, että yksittäistä henkilöä koskevia tietoja ei voida yhdistellä muuhun aineistoon, yksittäistä henkilöä ei voida suoraan tai välillisesti tunnistaa, eikä aineistosta voida tehdä vain yksittäistä henkilöä koskevia päätelmiä. Anonyymi aineisto tulee olla mahdotonta tai kohtuuttoman vaikeaa palauttaa muotoon, jossa yksittäinen henkilö on tunnistettavissa.

Pseudonymisointi tarkoittaa henkilötietojen muuttamista esimerkiksi koodattuun tai salattuun muotoon, jossa henkilön suora tunnistaminen on estetty, mutta tiedot on mahdollista palauttaa alkuperäiseen muotoonsa, jos koodiavain on tallessa. Pseudonymisoidut tiedot ovat edelleen henkilötietoja, koska niistä on mahdollista palauttaa henkilön tunnistaminen. Findatan luvittamaa pseudonymisoitua yksilötasoista aineistoa saa käsitellä vain tietoturvallisessa etäkäyttöympäristössä, jonne on pääsy vain luvan saaneilla henkilöillä.