Secure Analysis Environment (SANE)

Wat is SANE

Secure ANalysis Environment (SANE) is een virtuele computer die volledig is afgesloten van de buitenwereld en die vooraf goedgekeurde analysesoftware bevat zoals R en Jupyter-notebooks, evenals toegang tot gevoelige gegevens. Door deze opzet kunnen leveranciers de volledige controle over hun data behouden, maar kunnen onderzoekers deze gegevens gemakkelijk analyseren. SANE, een samenwerking tussen ODISSEI, CLARIAH en SURF, biedt daarmee een platform voor onderzoekers uit verschillende disciplines om gevoelige gegevens te analyseren.

SANE draait op het ISO 27001-gecertificeerde SURF Research Cloud-platform en heeft een grondige onafhankelijke penetratietest doorstaan. SANE adresseert de zorgen van dataleveranciers die aarzelen om gevoelige datasets met onderzoekers te delen. Met SANE behouden dataleveranciers de volledige controle over hun gegevens, zoals wordt voorgeschreven door de Algemene Verordening Gegevensbescherming (AVG).

Doel

Het gebrek aan onderzoeksoplossingen om gevoelige data veilig te analyseren beperkt het gebruik van niet-academische datasets. SANE pakt dit aan door de Five Safes-principes te volgen. SANE zorgt ervoor dat onderzoekers gevoelige gegevens alleen kunnen publiceren na verificatie door de dataleverancier, het vergrendelt de internettoegang voor onderzoekers, biedt de mogelijkheid dat onderzoekers de gegevens niet kunnen zien en geen aanvullende gegevens te uploaden, en houdt een logboek bij van alle handelingen die de onderzoeker uitvoert. 

Momenteel ontbreekt veel infrastructuur om data veilig toegankelijk te maken. Als gevolg hiervan aarzelen veel potentiële leveranciers, waaronder overheden, erfgoedinstellingen en commerciële entiteiten, om hun datasets openbaar te maken, wat ertoe leidt dat waardevolle datasets niet gebruikt worden, ondanks het potentieel dat ze bieden voor academische doorbraken.

Verschil tussen Tinker en Blind

SANE comes in two versions: Tinker SANE and Blind SANE. 

Tinker SANE

In Tinker SANE zien onderzoekers de gegevens, kunnen ze ermee experimenteren en deze bewerken. De ‘tinker’-variant is het meest geschikt wanneer de onderzoeker verschillende gegevensbronnen combineert en waarbij specifieke kenmerken van de gecombineerde gegevens de daaruit voortvloeiende analysestappen bepalen.

Blind SANE

In Blind SANE dient de onderzoeker een algoritme in, en de dataleverancier staat niet toe dat de onderzoeker de gegevens ziet. Dit is gebruikelijk in situaties waarop auteursrecht van toepassing is. De ‘blinde’ variant kan worden gebruikt voor grote datasets waarvan de datastructuur bij de onderzoeker bekend is, zoals historische kranten bij de Koninklijke Bibliotheek (KB) of historische tv-uitzendingen bij het Nederlands Instituut voor Beeld en Geluid (B&G).

Waroom SANE?

De voordelen van het gebruik van SANE

Faciliteren van toegang tot gegevens

SANE verruimt de toegang tot vertrouwelijke datasets voor onderzoekers door tools te bieden waarmee dataleveranciers het risico op schending van de vertrouwelijkheid kunnen minimaliseren. Dataleveranciers behouden de volledige controle over hun gegevens, zoals wordt voorgeschreven door de Algemene Verordening Gegevensbescherming (AVG).

Uitbreiding van bestaande datasets

Omdat SANE een veilige omgeving voor data-analyse en een extra laag van gegevensbescherming biedt, kunnen dataleveranciers gevoelige gegevens delen voor onderzoeksdoeleinden met een minimaal risico op openbaarmaking. Hierdoor kunnen onderzoekers rijkere datasets gebruiken.

Bekende analysetools

Via SANE kan de onderzoeker werken met vertrouwde analysetools. Tinker SANE is een standaard Windows-machine en zowel Tinker als Blind SANE bieden een breed scala aan analysetools. RStudio en Jupyter Notebooks zijn vooraf geïnstalleerd. 

Generieke oplossing

SANE biedt standaardspecificaties voor ontwikkelaars bij ODISSEI en CLARIAH, waardoor ze analysetools kunnen ontwikkelen die werken met een verscheidenheid aan dataleveranciers. Dit verkleint de noodzaak voor individuele aanpassingen. Dit maakt SANE een waardevolle, toekomstbestendige oplossing, die onafhankelijk van bestaande aanbieders kan draaien.

Hoge veiligheidsnormen

SANE is een specifieke configuratie van SRAM (SURF Research Access Management) en SRC (SURF Research Cloud) en heeft in november 2023 een onafhankelijke penetratietest door een gespecialiseerd bedrijf doorstaan. Daarmee is SANE onderdeel van de ISO 27001-certificering van SRAM en SRC. ISO 27001 is een internationale norm voor informatiebeveiliging. SURF voert periodiek interne audits en assessments uit en voert continue verbeteringen en aanpassingen aan het Information Security Management System door.

Schaalbare cloud-infrastructuur

Omdat SANE een cloudgebaseerde infrastructuur heeft, schaalt deze vrijwel oneindig. Momenteel draait het op SURF HPC Cloud, waarmee u slechts een paar klikken verwijderd bent van een machine met 64 GB RAM of een A10 GPU. In de toekomst kan SANE op elke cloudprovider draaien, waaronder Microsoft Azure en Amazon Web Services (AWS). SANE kan binnenkort ook on-premise draaien bij de dataleverancier.

Use Case

Het project ‘FIRMBACKBONE’ is een initiatief van de Universiteit Utrecht (UU) en de Vrije Universiteit Amsterdam (VU Amsterdam). In dit project wordt de gevoelige dataset van KvK gebruikt en verrijkt met ongestructureerde open data.

Hoe SANE opzetten?

Het opzetten van SANE duurt slechts ongeveer 30 minuten. Het opzetten van een Secure ANalysis Environment omvat een samenwerking tussen de dataleverancier en een onderzoeker. Elke dataleverancier die gebruikmaakt van de SURF Research Cloud kan zijn data aanbieden via SANE. Meestal is hiervoor een kosteloos SURF Research Cloud-contract nodig, een voorwaarde waaraan het merendeel van de Nederlandse onderzoeks- en onderwijsinstellingen voldoet. Tegelijkertijd heeft een onderzoeker voldoende SURF Research Cloud-financiering nodig om SANE te kunnen gebruiken. Dit kan geregeld worden via een SURF E-infra subsidie of een overeenkomst tussen SURF en de instelling waaraan de onderzoeker verbonden is.

Zodra aan deze vereisten is voldaan, maakt de gegevensprovider een Collaborative Organization (CO) om gebruikers en rollen te beheren, evenals de virtuele analyseomgeving zelf. Bij dit proces wordt gebruikgemaakt van een eenvoudige, kant-en-klare omgeving van SURF. Voor meer informatie over het opzetten van SANE, volg de onderstaande knop.

Eventuele vragen over het gebruik van SANE kunt u richten aan SANE Project Manager Lucas van der Meer (lucas@odissei-data.nl).

Over de partners

  • ODISSEI: De nationale onderzoeksinfrastructuur voor de sociale wetenschappen in Nederland, die baanbrekend onderzoek faciliteert door middel van data, expertise en middelen.
  • SURF: een coöperatie van Nederlandse onderwijs- en onderzoeksinstellingen die zich inzetten voor het verbeteren van digitale dienstverlening en het bevorderen van kennisdeling door middel van innovatie.
  • CLARIAH: Een gedistribueerde onderzoeksinfrastructuur voor de geestes- en sociale wetenschappen, die toegang biedt tot uitgebreide digitale datacollecties en gebruiksvriendelijke applicaties.