På den här sidan hittar du anvisningar för att producera anonyma resultat. Den som behandlar personuppgiftsmaterial ska producera analysresultaten i anonym form, där en enskild persons uppgifter eller egenskaper inte avslöjas. Vi säkerställer resultatens anonymitet enligt lagen som sekundär användning. Detta gäller allt material som har beviljats tillstånd med stöd av lagen om sekundär användning.
På den här sidan presenteras de vanligaste analystyperna som vanligtvis ingår i undersökningsresultaten. Förteckningen är inte uttömmande. Det är bra att observera att variablernas innehåll påverkar risken för avslöjande. I vissa fall är risken för avslöjande uppenbar, men det finns många variabler där inte ens dess enskilda exakta värde gör det möjligt att dra slutsatser om en person.
Resultaten ska granskas och man ska säkerställa att de följer dessa anvisningar för olika typer av utskrifter. För vissa resultattyper kan anonymiteten enkelt fastställas, medan det för andra krävs en noggrannare granskning. Även om enbart iakttagandet av anvisningarna inte säkerställer resultatens anonymitet, kommer man så nära målet som möjligt genom att följa dessa anvisningar.
Vad betyder anonymisering?
Anonymisering innebär en process där materialet behandlas så att
- en enskild person kan inte identifieras direkt eller indirekt
- man inte kan dra slutsatser om enbart denna person
- uppgifter om denna person kan inte kombineras med annat material
Anonymt material ska vara omöjligt eller orimligt svårt att återställa till en form där en enskild person kan identifieras. Enligt lagen om sekundär användning ska resultaten vara anonyma.
Om det i studien finns behov av att publicera resultat som inte kan anonymiseras ska detta beaktas redan när studien planeras och andra grunder för genomförandet av studien ska användas, såsom deltagarnas samtycke.
Det är viktigt att notera att även om ett enskilt resultat i sig självt är anonymt, kan en kombination av flera resultat ibland leda till en möjlighet att uppgifter avslöjas. Ett typiskt exempel på detta är om flera frekvenstabeller produceras med samma klassificering av variabeln. Av dessa är det i allmänhet möjligt att kombinera en frekvenstabell med noggrannare uppgifter, där uppgifterna har definierats för flera variabler.
Sammanställningen av resultaten ska beaktas både i den pågående analysen och i tidigare analyser. Om användaren känner till tidigare publikationer i vars analyser samma eller nästan samma material eller grupp av material har använts, ska användaren minst skicka länkarna till sådana publikationer.
För att säkerställa anonymiteten utgår man från att minimifrekvensen i resultaten är fem. Detta kriterium används för att säkerställa dataskyddet. Av grundad anledning och enligt prövning från fall till fall kan man avvika från kravet på minimifrekvensen 5 och använda minimifrekvensen 3, om det till exempel är fråga om en mycket liten målgrupp, en undersökning av en sällsynt sjukdom eller om man på annat sätt undersöker ett sällsynt fenomen. Denna information ska vara ett viktigt fynd med tanke på utformningen av studien och som det är nödvändigt att rapportera med denna noggrannhet. Även anonymitetskriterierna ska uppfyllas (dvs. de använda variablerna preciserar inte personen så att en identifiering är möjlig).
Findata ska ha tillräcklig bakgrundsinformation för varje analystyp för att säkerställa anonymiteten. Dessa uppgifter ska vara synliga vid sidan av utskriften. Antingen bredvid resultatet eller som ett separat dokument så att resultatet och bakgrundsinformationen är lätta att förstå. Vi använder de principer som beskrivs i tabellen nedan som grund för processen för säkerställande av anonymiteten.
Klassificering enligt risken för avslöjande enligt resultattyp
Datatyp | Typ av resultat | Generaliserande klassificering |
Beskrivande nyckeltal | ||
Frekvenstabell | Ska kontrolleras | |
Mängdtabell | Ska kontrolleras | |
Maximum, minimum, percentiler, median | Ska kontrolleras | |
Typvärde | I allmänhet säker | |
Medeltal, index, relationstal, indikatorer | Ska kontrolleras | |
Koncentrationsgrad | I allmänhet säker | |
Nyckeltal för det högre momentet (såsom varians, kovarians, excess, snedhet) | I allmänhet säker | |
Figurer: presentation av originalmaterialet i bilder | Ska kontrolleras | |
Korrelationer och analyser av regressionstyp | ||
Koefficienter för lineär regression | I allmänhet säker | |
Koefficienter för icke-lineär regression | I allmänhet säker | |
Residualer vid estimering | Ska kontrolleras | |
Sammanfattnings- och teststatistikor för estimater (R2, χ2 etc.) | I allmänhet säker | |
Korrelationskoefficienter | I allmänhet säker | |
Faktoranalys | I allmänhet säker | |
Korrespondensanalys | I allmänhet säker |
Beskrivande nyckeltal och analyser
I texten nedan avser gruppen eller målgruppen de observationer från vilka nyckeltalen räknas.
Minimum, maximum och intervall
I allmänhet hänför sig minimum och maximum till den enklast identifierbara enheten, alltså är utgångspunkten att risk för avslöjande ingår. De kan publiceras om nyckeltalets värde grundar sig på flera enheter. Resultatens anonymitet kan förbättras genom att dela in uppgifterna i klasser, vilket ger flera individer i varje klass. Vid sidan av minimum och maximum kan man överväga att använda lämpliga kvantiler.
Fraktiler – kvantiler, deciler, percentiler, median
Kan publiceras om frekvensen bakom talet är tillräckligt stor.
Medelvärde, standardavvikelse
Kan i sällsynta fall innehålla risk för avslöjande. Kontrollera att resultatet beskriver en tillräckligt stor grupp och att hela målgruppen inte får samma värde. Kontrollera att inga nyckeltal rapporteras för flera nästan identiska grupper eller delgrupper.
Typvärde
Kan i princip publiceras men gruppens avslöjande ska kontrolleras, dvs. att den inte beskriver hela målgruppens värde.
Nyckeltal för högre moment, såsom varians
Kan i princip publiceras, eftersom nyckeltalet tydligt har modifierats från individens ursprungliga värden. Ska säkerställas att man inte publicerar för många nyckeltal från en liten grupp som kan leda till att hela gruppen avslöjas.
Korrelationskoefficienter
Kan i princip publiceras när det i den kontrollerade gruppen finns tillräckligt många observationer.
Koncentrationsgrader
Kan i princip publiceras när det i den kontrollerade gruppen finns tillräckligt många observationer.
Lineär regression, icke-lineär regression
Kan i princip publiceras.
Teststatistikor
Kan i princip publiceras.
Faktoranalys
Kan i princip publiceras, men man måste säkerställa att faktorerna inte bara beror på en enskild variabel.
Huvudkomponentanalys
Huvudkomponentvektorer och motsvarande egenvärden kan i princip publiceras. Observationernas projektioner till huvudkomponenterna ska kontrolleras (motsvarar punktdiagrammet, se nedan).
Index, relationstal, indikatorer
Index går i regel att publiceras, men den använda beräkningsformeln ska beaktas. Index i en mer komplicerad formel (t.ex. Fisher Price) medför i allmänhet ingen risk för avslöjande, men i mycket enkla formler är risken möjlig och det ska finnas tillräckligt med observationer bakom siffrorna.
Gini-koefficienter
Gini-koefficienten ska ha beräknats för ett tillräckligt stort antal observationer. Följande uppgifter behövs vid kontrollen: beräkningsformel och eventuellt frekvens bakom siffrorna
Grafer
Utgångspunkten är att vid en bedömning av bildens dataskydd är en aggregerad presentation i tabellform lättare att uppfatta än själva bilden, eftersom det i allmänhet är omöjligt att se frekvensen av de observationer som ligger bakom den övriga kurvans punkt eller graf. Därför ska tabellen bakom resultatet bifogas bilden, om enskilda observationer eller en liten målgrupp beskrivs på bilden.
Histogram
I histogrammen ska uppmärksamhet fästas vid att materialet har klassificerats så att det inte förekommer för få observationer i en enskild klass. Detta medför en utmaning särskilt till exempel för normalfördelningens svansar. Anvisningen är jämförbar med fallet med de nyckeltal som beskriver materialet och det är alltså inte nödvändigtvis möjligt att beskriva hela svansen.
Spridningsdiagram eller punktdiagram
I spridningsdiagrammen finns i regel en enhet bakom en punkt och därför är dessa inte publicerbara utan gruppering av materialet som använts för att producera grafen så att det finns flera observationer bakom en punkt. Får publiceras endast om de data som ligger till grund för figuren kan publiceras som en tabell. I bedömningen ska man dock också beakta om kombinationen av de använda variablerna gör det möjligt att identifiera individen. Anonymiteten i spridningsdiagrammet kan förbättras genom att ersätta den med en graf som visar observationsfrekvensen i rutfältens celler eller genom att lägga till slumpmässighet i punkterna.
Lådagram (Box plots)
I princip en risk för avslöjande, eftersom de innehåller bildpunkter som riktas mot en enskild observation och i synnerhet avvikande observationer kan leda till avslöjande. Även medeltalet kan medföra en risk för avslöjande. Anvisningen är jämförbar med fallet med de nyckeltal som beskriver materialet och särskilt avvikande observationer medför risk för avslöjande.
Residualer
Residualerna tyder på en observation. Vid beskrivningen av residualerna bör grafens form användas i stället för en graf som baserar sig på enskilda punkter. Om man använder en graf som baserar sig på enskilda punkter bör man undvika att ange axlarnas värden.
Livstidsanalys, Kaplan-Meier-kurva
Kan innehålla risk för avslöjande beroende på bedömningen av analysen. Om varje steg i kurvan motsvarar tillräckligt många observationer kan den publiceras. Om det står klart att man med hjälp av uppgifterna bakom kurvan inte kan dra en slutsats om exakta åldrar eller kalendertidpunkter, kan även enskilda steg tillåtas. När enskilda steg publiceras måste man dock fundera på hur väl fotografens bakgrundsuppgifter identifierar personerna.
Spatial analys
Särskilt utmanande med tanke på dataskyddet, eftersom lokaliseringsinformationen i allmänhet är central för avslöjandet. Kräver i allmänhet mycket omklassificering och informationen presenteras hellre som färgdiagram i stället för observationspunkter.
Andra resultattyper
Fotografier och annat bildmaterial
I fråga om bildmaterial granskas situationen från fall till fall. När det gäller bildmaterial är det mycket svårt att fastställa allmänna anvisningar för allt material. Naturligtvis får materialet inte ha direkta identifierare i textform och en grövre bild försvårar i allmänhet identifieringen. Personer som hanterar bildmaterial är i allmänhet bäst på att bedöma risken för att bildmaterialet avslöjas. Till exempel en enskild tand identifierar i allmänhet inte en person, men hela tandkartan gör det.
Ärftlig genetisk information
När det gäller genetisk information kan nyckeltalen som beräknats från en tillräckligt stor mängd för en tillräckligt liten mängd varianter vara anonyma. Dessa måste dock kontrolleras från fall till fall.
Maskininlärning
I fråga om neuronät och andra modeller för maskininlärning (beslutsträd etc.) är det sällan fråga om egentlig publicering av material. Ändå vill man ta sådana resultat utanför den informationssäkra Kapseli-driftmiljön och de kontrolleras från fall till fall. Allmänna anvisningar läggs till senare.
Material på individnivå
Anonymiteten hos material på individnivå ska alltid kontrolleras från fall till fall. Kontakta Findata för närmare anvisningar.
Källor
- Bond et al.: Guidelines for Output Checking, available at: http://www.dwbproject.org/export/sites/default/access/doc/dwb_standalone-document_output-checking-guidelines.pdf
- Brandt et al. (2009): Guidelines for the checking of output based on microdata research, available at: https://ec.europa.eu/eurostat/cros/content/deliverablestask3-sdc_en
- Griffiths, E. et al. (2019). Handbook on Statistical Disclosure Control for Outputs, version 1.0 2019
- Hundepool, Anco; Domingo-Ferrer, Josep; Franconi, Luisa; Giessing, Sarah; Schulte-Nordholt, Eric; Spicer, Keith & de Wolf, Peter-Paul (2012). Statistical Disclosure Control. Wiley