Produktion av anonyma resultat

På den här sidan hittar du anvisningar för att producera anonyma resultat. Den som behandlar personuppgiftsmaterial ska producera analysresultaten i anonym form, där en enskild persons uppgifter eller egenskaper inte avslöjas. Vi säkerställer resultatens anonymitet enligt lagen som sekundär användning. Detta gäller allt material som har beviljats tillstånd med stöd av lagen om sekundär användning.

På den här sidan presenteras de vanligaste analystyperna som vanligtvis ingår i undersökningsresultaten. Förteckningen är inte uttömmande. Det är bra att observera att variablernas innehåll påverkar risken för avslöjande. I vissa fall är risken för avslöjande uppenbar, men det finns många variabler där inte ens dess enskilda exakta värde gör det möjligt att dra slutsatser om en person.

Du ska granska resultaten och säkerställa att de följer dessa anvisningar för olika typer av utskrifter. För vissa resultattyper kan anonymiteten enkelt fastställas, medan det för andra krävs en noggrannare granskning. Även om enbart iakttagandet av anvisningarna inte säkerställer resultatens anonymitet, kommer man så nära målet som möjligt genom att följa dessa anvisningar

Utöver att följa dessa instruktioner måste du skicka in en sammanfattningsblankett tillsammans med resultaten och Findata utför resultatkontroller. Skicka inte resultaten för anonymitetsverifiering förrän du är säker på att resultaten har genererats i ett anonymt format.

Fyll i formuläret noggrant. Verifieringen av anonymitet är starkt beroende av informationen i sammanfattningsformuläret. Vi kan ge dig vägledning för att producera anonyma resultat. Generera resultaten i ett format som möjliggör anonymitetsverifiering.

Så här påskyndar du verifieringen av resultatanonymitet

  1. Läs noggrant instruktionerna på denna sida. Se till att resultaten du producerar följer riktlinjerna.
    • Kontakta Findatas rådgivning för att få hjälp med att tillämpa instruktionerna.
  2. Fyll i sammanfattningsformuläret noggrant. Fyll i alla delar av blanketten och kryssa i alla nödvändiga rutor på Sammanfattning-sidan.
    • Om dina resultat inte stämmer överens med alla påståenden, motivera varför resultaten fortfarande kan betraktas som anonyma.
    • Om resultaten skickas via överföringstjänsten Nextcloud, se till att Nextcloud-ID nämns i formuläret. Ytterligare anvisningar om kryptering och överföring av data via Nextcloud finns på sidan Skicka material till Findata.
  3. Generera resultaten i ett format som gör det möjligt att verifiera anonymiteten. Se till att alla variabler är märkta med namn som är begripliga för individer utanför forskningen.
    • Ange tydligt typen av resultat (t.ex. frekvens, regressionskoefficient eller annan teststatistik).
  4. Begär resultat i paket av rimlig storlek för export.
    • Undvik att skicka enskilda resultatpaket ofta (t.ex. varje dag). Hantering av resultatpaket genom flera separata inlämningar tar mer tid för dataöverföring och kommunikation.
    • Vi rekommenderar att du skickar resultat i paket med högst 50 filer. Att hantera ett extremt stort resultatpaket som innehåller hundratals filer kan vara arbetskrävande, särskilt om det finns osäkerheter eller kommentarer om resultatanonymitet.
  5. Om du begär andra uppgifter förutom resultat från driftmiljön, se till att dessa filer inte innehåller resultat. Beskriv tydligt de uppgifter som överförs i sammanfattningsformuläret.
    • Se till att kodfiler inte innehåller resultat eller data (t.ex. Pseudo-ID).

Vad betyder anonymisering?

Anonymisering innebär en process där materialet behandlas så att

  • en enskild person inte direkt eller indirekt kan identifieras 
  • man inte kan dra slutsatser om enbart denna person 
  • uppgifter om denna person kan inte kombineras med annat material 

Anonymt material ska vara omöjligt eller orimligt svårt att återställa till en form där en enskild person kan identifieras. Enligt lagen om sekundär användning ska resultaten vara anonyma.

Om det i studien finns behov av att publicera resultat som inte kan anonymiseras ska detta beaktas redan när studien planeras och andra grunder för genomförandet av studien ska användas, såsom deltagarnas samtycke.

Notera att även om ett enskilt resultat i sig självt är anonymt, kan en kombination av flera resultat ibland leda till en möjlighet att uppgifter avslöjas. Ett typiskt exempel på detta är om flera frekvenstabeller produceras med samma klassificering av variabeln. Av dessa är det i allmänhet möjligt att kombinera en frekvenstabell med noggrannare uppgifter, där uppgifterna har definierats för flera variabler.

Sammanställningen av resultaten ska beaktas både i den pågående analysen och i tidigare analyser. Om du känner till tidigare publikationer vars analyser har använt samma eller nästan samma material eller grupp av material har använts i analyser, ge åtminstone länkarna till sådana publikationer.

För att säkerställa anonymiteten utgår man från att minimifrekvensen i resultaten är fem. Detta kriterium används för att säkerställa dataskyddet. Av grundad anledning och enligt prövning från fall till fall kan man avvika från kravet på minimifrekvensen 5 och använda minimifrekvensen 3, om det till exempel är fråga om en mycket liten målgrupp, en undersökning av en sällsynt sjukdom eller om man på annat sätt undersöker ett sällsynt fenomen. Denna information ska vara ett viktigt fynd med tanke på utformningen av studien och som det är nödvändigt att rapportera med denna noggrannhet. Även anonymitetskriterierna ska uppfyllas (dvs. de använda variablerna preciserar inte personen så att en identifiering är möjlig).

Findata ska ha tillräcklig bakgrundsinformation för varje analystyp för att säkerställa anonymiteten. Dessa uppgifter ska vara synliga vid sidan av utskriften. Antingen bredvid resultatet eller som ett separat dokument så att resultatet och bakgrundsinformationen är lätta att förstå. Vi använder de principer som beskrivs i tabellen nedan som grund för processen för säkerställande av anonymiteten.

Klassificering enligt risken för avslöjande enligt resultattyp

DatatypTyp av resultatGeneraliserande klassificering
Beskrivande nyckeltal
FrekvenstabellSka kontrolleras
MängdtabellSka kontrolleras
Maximum, minimum, percentiler, medianSka kontrolleras
TypvärdeI allmänhet säker
Medeltal, index, relationstal, indikatorerSka kontrolleras
Koncentrationsgrad  I allmänhet säker
Nyckeltal för det högre momentet (såsom varians, kovarians, excess, snedhet)I allmänhet säker
Figurer: presentation av originalmaterialet i bilderSka kontrolleras
Korrelationer och analyser av regressionstyp
Koefficienter för lineär regressionI allmänhet säker
Koefficienter för icke-lineär regression  I allmänhet säker
Residualer vid estimeringSka kontrolleras
Sammanfattnings- och teststatistikor för estimater (R2, χ2 etc.) I allmänhet säker
KorrelationskoefficienterI allmänhet säker
FaktoranalysI allmänhet säker
KorrespondensanalysI allmänhet säker

Innan du skickar dina resultat för anonymitetsverifiering, se till att:

  • dina resultat innehåller inga <5 frekvenser
  • dina resultat kan inte användas för att identifiera enskilda personer, vare sig direkt eller indirekt, och att uppgifterna inte kan kombineras med andra uppgifter om samma person

Beskrivande nyckeltal och analyser

I texten nedan avser gruppen eller målgruppen de observationer från vilka nyckeltalen räknas.

Minimum, maximum och intervall

I allmänhet hänför sig minimum och maximum till den enklast identifierbara enheten, alltså är utgångspunkten att risk för avslöjande ingår. De kan publiceras om nyckeltalets värde grundar sig på flera enheter. Resultatens anonymitet kan förbättras genom att dela in uppgifterna i klasser, vilket ger flera individer i varje klass. Vid sidan av minimum och maximum kan man överväga att använda lämpliga kvantiler.

Fraktiler – kvantiler, deciler, percentiler, median

Kan publiceras om frekvensen bakom talet är tillräckligt stor.

Medelvärde, standardavvikelse

Kan i sällsynta fall innehålla risk för avslöjande. Kontrollera att resultatet beskriver en tillräckligt stor grupp och att hela målgruppen inte får samma värde. Kontrollera att inga nyckeltal rapporteras för flera nästan identiska grupper eller delgrupper.

Typvärde

Kan i princip publiceras men gruppens avslöjande ska kontrolleras, dvs. att den inte beskriver hela målgruppens värde.

Nyckeltal för högre moment, såsom varians

Kan i princip publiceras, eftersom nyckeltalet tydligt har modifierats från individens ursprungliga värden. Ska säkerställas att man inte publicerar för många nyckeltal från en liten grupp som kan leda till att hela gruppen avslöjas.

Korrelationskoefficienter

Kan i princip publiceras när det i den kontrollerade gruppen finns tillräckligt många observationer.

Koncentrationsgrader

Kan i princip publiceras när det i den kontrollerade gruppen finns tillräckligt många observationer.

Lineär regression, icke-lineär regression

Kan i princip publiceras.

Teststatistikor

Kan i princip publiceras.

Faktoranalys

Kan i princip publiceras, men man måste säkerställa att faktorerna inte bara beror på en enskild variabel.

Huvudkomponentanalys

Huvudkomponentvektorer och motsvarande egenvärden kan i princip publiceras. Observationernas projektioner till huvudkomponenterna ska kontrolleras (motsvarar punktdiagrammet, se nedan).

Index, relationstal, indikatorer

Index går i regel att publiceras, men den använda beräkningsformeln ska beaktas. Index i en mer komplicerad formel (t.ex. Fisher Price) medför i allmänhet ingen risk för avslöjande, men i mycket enkla formler är risken möjlig och det ska finnas tillräckligt med observationer bakom siffrorna. 

Gini-koefficienter

Gini-koefficienten ska ha beräknats för ett tillräckligt stort antal observationer. Följande uppgifter behövs vid kontrollen: beräkningsformel och eventuellt frekvens bakom siffrorna

Figur

Utgångspunkten är att vid en bedömning av bildens dataskydd är en aggregerad presentation i tabellform lättare att uppfatta än själva bilden, eftersom det i allmänhet är omöjligt att se frekvensen av de observationer som ligger bakom den övriga kurvans punkt eller graf. Därför ska tabellen bakom resultatet bifogas bilden, om enskilda observationer eller en liten målgrupp beskrivs på bilden.

Histogram

I histogrammen ska uppmärksamhet fästas vid att materialet har klassificerats så att det inte förekommer för få observationer i en enskild klass. Detta medför en utmaning särskilt till exempel för normalfördelningens svansar. Anvisningen är jämförbar med fallet med de nyckeltal som beskriver materialet och det är alltså inte nödvändigtvis möjligt att beskriva hela svansen.

Spridningsdiagram eller punktdiagram

I spridningsdiagrammen finns i regel en enhet bakom en punkt och därför är dessa inte publicerbara utan gruppering av materialet som använts för att producera grafen så att det finns flera observationer bakom en punkt. Får publiceras endast om de data som ligger till grund för figuren kan publiceras som en tabell. I bedömningen ska man dock också beakta om kombinationen av de använda variablerna gör det möjligt att identifiera individen. Anonymiteten i spridningsdiagrammet kan förbättras genom att ersätta den med en graf som visar observationsfrekvensen i rutfältens celler eller genom att lägga till slumpmässighet i punkterna.

Lådagram (Box plots)

I princip en risk för avslöjande, eftersom de innehåller bildpunkter som riktas mot en enskild observation och i synnerhet avvikande observationer kan leda till avslöjande. Även medeltalet kan medföra en risk för avslöjande. Anvisningen är jämförbar med fallet med de nyckeltal som beskriver materialet och särskilt avvikande observationer medför risk för avslöjande.

Residualer

Residualerna tyder på en observation. Vid beskrivningen av residualerna bör grafens form användas i stället för en graf som baserar sig på enskilda punkter. Om man använder en graf som baserar sig på enskilda punkter bör man undvika att ange axlarnas värden.

Livstidsanalys, Kaplan-Meier-kurva

Kan innehålla risk för avslöjande beroende på bedömningen av analysen. Om varje steg i kurvan motsvarar tillräckligt många observationer kan den publiceras. Om det står klart att man med hjälp av uppgifterna bakom kurvan inte kan dra en slutsats om exakta åldrar eller kalendertidpunkter, kan även enskilda steg tillåtas. När enskilda steg publiceras måste man dock fundera på hur väl fotografens bakgrundsuppgifter identifierar personerna.

Spatial analys

Särskilt utmanande med tanke på dataskyddet, eftersom lokaliseringsinformationen i allmänhet är central för avslöjandet. Kräver i allmänhet mycket omklassificering och informationen presenteras hellre som färgdiagram i stället för observationspunkter.

Andra resultattyper

Fotografier och annat bildmaterial

I fråga om bildmaterial granskas situationen från fall till fall. När det gäller bildmaterial är det mycket svårt att fastställa allmänna anvisningar för allt material. Naturligtvis får materialet inte ha direkta identifierare i textform och en grövre bild försvårar i allmänhet identifieringen. Personer som hanterar bildmaterial är i allmänhet bäst på att bedöma risken för att bildmaterialet avslöjas. Till exempel en enskild tand identifierar i allmänhet inte en person, men hela tandkartan gör det.

Ärftlig genetisk information

När det gäller genetisk information kan nyckeltalen som beräknats från en tillräckligt stor mängd för en tillräckligt liten mängd varianter vara anonyma. Dessa måste dock kontrolleras från fall till fall.

Maskininlärning

I fråga om neuronät och andra modeller för maskininlärning (beslutsträd etc.) är det sällan fråga om egentlig publicering av material. Ändå vill man ta sådana resultat utanför den informationssäkra Kapseli-driftmiljön och de kontrolleras från fall till fall. Allmänna anvisningar läggs till senare.

Material på individnivå

Anonymiteten hos material på individnivå ska alltid kontrolleras från fall till fall. Kontakta Findata för närmare anvisningar.

Källor

Publicering av resultaten

I detta sammanhang innebär publicering att föra information till allmänheten och sprida den till det omgivande samhället. Publicering definieras som presentation av resultat utanför din egen arbetsgrupp.

Publicering kan ske i en vetenskaplig eller annan tidskrift, avhandling, lärobok eller manual, konferens eller annan presentation, eller i ett abstrakt, rapport, recension eller någon form av internetpublikation.

Publicering resultat från Kapseli

Behandlingen av materialet sker i Kapseli-driftmiljön och endast färdiga analysresultat förs utanför systemet. Tillståndshavaren producerar resultaten i anonym form och Findata säkerställer resultatens anonymitet.

  1. Kontrollera anonymiteten hos de resultat som är avsedda för publicering i förhållande till Findatas efterföljande anvisning.
  2. Överför resultaten och sammandragsblanketten till Findata via Output-mappen i Kapseli-driftmiljön.
  • Fyll i och bifoga sammandragsblanketten (Begäran om säkerställande av resultatens anonymitet). 
  • Packa resultaten och sammandragsblanketten i zip-mappen och namnge den på följande sätt:
    • Resultat_diarium_för_uppgiftstillstånd_driftmiljöns_identifikation_överföringsdatum (t.ex. Resultat_THL_1234_14.02.00_2020_a01_15032021). 
  • Skapa en tom textfil i Output-mappen med namnet ZZZ_READY.txt, varvid zip-mappen automatiskt överförs till Findata. Kontrollera noggrant att ZZZ_READY-filen är rätt namngiven för att överföringen ska lyckas. Överföringarna sker varje heltimme och var 30:e minut. De överförda filerna raderas därefter automatiskt från Output-stationen.
  • Om du vill kan du skicka information om överföringen till Findata (data@findata.fi). Vi kontaktar dig om överföringen inte har kommit fram (det kommer inte någon kvittering på en lyckad överföring).

Vi granskar begäran inom 5 vardagar och levererar resultaten via Nextcloud till tillståndshavaren eller kontaktar tillståndshavaren om ytterligare information behövs. Om resultatfilerna är mycket stora uppfylls inte nödvändigtvis tidsgränsen på 5 vardagar.

Om du inte har Nextcloud-konto fylla i formuläret Beställ ett nytt Nextcloud-konto i vår e-tjänst (asiointi.findata.fi).

Publicering resultat från andra driftmiljöer

Om du behandlar data i en annan säker driftmiljö än Findatas Kapseli och är redo att publicera resultaten, följ instruktionerna nedan.

  1. Ladda ner sammanfattningsformuläret och fyll i den begärda informationen: Sammanfattningsformulär – verifiering av resultatens anonymitet (Word-fil, 38 kB).
  2. Komprimera filerna och sammanfattningsformuläret till en zip-mapp och namnge det enligt följande:
    • “Resultaten_[Registreringsnummer_för_tillståndsbeslut]_[Kapseli_ID]_[Leverans_datum]” (e.g., “Resultaten_THL_1234_14.02.00_2020_a01_15032021”).
    • Obs: skriv datumet i formatet ddmmyyyy.
  3. Du kan leverera resultaten till Findata på två sätt:
    • Om du har ett Nextcloud-konto, överför resultaten via Nextcloud
    • Om du inte har ett Nextcloud-konto överför resultaten via säker e-post
    • Obs! Skicka inte resultatfilerna till Findata som en bilaga till ett vanligt, osäkert e-postmeddelande.
  4. Kontakta Findata på data@findata.fi
    • Namnge ämnet för ditt e-postmeddelande som ”Säkerställa resultatens anonymitet”
    • Ange i din e-post om du överför resultaten via Nextcloud eller via säker e-post.
    • Om du använder Nextcloud, ange datatillståndets diarienumret och ditt Nextcloud-ID. Findata ger dig namnet på mappen där du kan överföra dina resultat och en zip-mapp som innehåller sammanfattningsformuläret.
    • Om du överför dina resultat via säker e-post får du ett säkert e-postmeddelande från Findata som du kan svara på att säkert överföra zip-mappen som innehåller dina resultat och sammanfattningsformuläret.
    • För mer information om kryptering och dataöverföring via Nextcloud, se sidan Skicka material till Findata.
  5. Om det finns några problem om resultatens anonymitet kommer vi att kontakta dig inom sju arbetsdagar efter att resultaten skickats in.
    • Om du inte hör från oss inom sju arbetsdagar efter att du skickat in dina resultat kan du fortsätta med publiceringen av dina resultat.

Se tips om hur du kan påskynda processen för att verifiera anonymiteten för dina resultat högst upp på denna sida.