Sichere Datenverarbeitungsumgebungen (SPE) für medizinische Daten - Bedarf in Deutschland und Erfahrungen aus dem europäischen Ausland
Am 4. November 2024 tauschten sich Vertreterinnen und Vertreter der Projekte genomDE und der Medizininformatik-Initiative (MII) sowie Expertinnen und Experten von CSC Finnland, Genomics England und des Schweizer Instituts für Bioinformatik bei einem gemeinsamen Workshop in Berlin aus. Bei der von der TMF e.V. organisierten Veranstaltung nahmen zudem die Bundesministerien für Gesundheit sowie Bildung und Forschung, das Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) und das Robert Koch-Institut (RKI) teil. Dabei wurden Anforderungen an und die Erfahrungen mit sicheren Datenverarbeitungsumgebungen (Secure Processing Environment – SPE) aus Sicht der Forschung und der genommedizinischen Versorgung diskutiert.
Sebastian C. Semler, TMF-Geschäftsführer und Leiter der Koordinationsstellen für genomDE und die MII, stellte eingangs dar, inwiefern eine SPE in bestimmten Gesetzgebungen verpflichtend vorgesehen ist: Im Europäischen Gesundheitsdatenraum (EHDS) ist Sekundärdatennutzung nach jetzigem Stand ausschließlich über eine SPE möglich. Die EU-Kommission wird voraussichtlich 2025 einen Implementing Act erlassen, der Weiteres regeln wird. Im deutschen Gesundheitsdatennutzungsgesetz (GDNG) ist festgelegt, dass Kriterien entwickelt werden sollen, wie zukünftig eine Datenverknüpfung durch eine SPE erfolgen kann.
Was ist eine SPE?
Es gibt bislang keine einheitliche Definition einer SPE. Man kann SPEs als sichere und regulierte Datenverarbeitungsinfrastrukturen bezeichnen, die Versorgenden und Forschenden den Zugang zu sensiblen Gesundheitsdaten ermöglichen und die Sicherheit der Daten angemessen wahren. In den Vorträgen wurden verschiedene Definitionen genannt.
SPE im Modellvorhaben Genomsequenzierung
Prof. Dr. Thomas Berlage vom Fraunhofer FIT berichtete von den Ergebnissen eines ersten Workshops zu den Anforderungen an SPEs aus Use Cases der genommedizinischen Versorgung und Forschung. Er betonte, dass insbesondere im Modellvorhaben Genomsequenzierung die wissensgenerierende Versorgung nur in sicheren Datenverarbeitungsumgebungen erreicht werden kann. Für die Verarbeitung der Genomdaten können hier bereits die Entwicklungen des Deutschen Humangenom-Phänomarchivs (GHGA) genutzt werden.
Für Datendienste als zentrales Nutzungskonzept im Modellvorhaben Genomsequenzierung sind noch viele offene Fragen zu klären. Ziel sei die föderierte Verarbeitung durch alle klinischen und genomischen Datenknoten. Geklärt werden müsse auch eine Datenzusammenführung (Linkage) mit Daten aus den klinischen Krebsregistern und den Forschungsdatenzentren inklusive der Einbeziehung von Kassendaten. Angedacht werden könne hier z.B. eine separate Recheninstanz mit Statistiktools und einem Broker-Zugriff auf Datenquellen.
Anforderungen aus klinischer Perspektive
Dr. Philipp Breitfeld, UKE Hamburg, präsentierte das Modell einer sicheren lokalen Forschungsdatenumgebung (Trusted Research Environment, TRE). Für klinische Routinedaten brauche es eine sichere Arbeitsumgebung und einen sicheren Zugang zu komplexen Daten für eine präzisere Forschung unter Einhaltung von Datenschutz und gesetzlichen Anforderungen. Wichtig sei darüber hinaus eine effiziente Bereitstellung von Rechenressourcen und einer Kooperationsplattform.
Ergebnisse einer Befragung der Nachwuchsforschungsgruppe BENEFIT der MII zeigen, dass Kliniker/-innen einen niederschwelligen Datenzugang fordern und in ihrem Forschungsworkflow unterstützt werden wollen. Sie wollen die Möglichkeit haben, interdisziplinär zusammenzuarbeiten, klinische Nutzer/-innen in die Forschung einzubinden und auf spezialisierte Software zuzugreifen.
Technische Anforderungen an eine TRE betreffen unter anderem Skalierbarkeit (Bereitstellung einer flexiblen Infrastruktur innerhalb der TRE vor dem Hintergrund wachsender Datenmengen und höherer Nutzerzahlen), Interoperabilität sowie Datensicherheit und -schutz (z.B. Sicherheitsprotokolle, Zugriffskontrollen).
Das UKE in Hamburg habe mit der sogenannten Forschungsplattform „Datenhotel“ einen Lösungsansatz entwickelt. Hier sei es möglich, individuelle Forschung mit pseudonymisierten Daten aus der lokalen Regelversorgung auf Basis landesrechtlicher Vorgaben durchzuführen. Das „Datenhotel“ diene unter anderem der Generierung und/oder der vereinfachten, datenschutzkonformen Überprüfung von wissenschaftlichen Forschungsfragen. Eine sogenannte Transferstelle exportiere vom Nutzer angeforderte, von der Treuhandstelle pseudonymisierte Daten in einen dem Nutzer zur Fragestellung zugewiesenen Raum. Im „Datenhotel“ sind die klinischen Daten aus dem lokalen Krankenhausinformationssystem (KIS) nur temporär aufrufbar und können nicht heruntergeladen werden. Der Zugang erfolgt nur über besonders geschützte Computer.
Im Hinblick auf die Weiterentwicklung von TREs betonte er, dass die Verarbeitung von Big Data, maschinelles Lernen sowie der Export von KI-Modellen und Algorithmen in die geschützten Datenverarbeitungsumgebungen noch an Grenzen stoße. Diese Funktionen sollten in Zukunft integriert werden. Eine Zusammenarbeit mit externen Organisationen sei wünschenswert.
Differenzierte Betrachtung des Schutzbedarfes von Genom- und Bilddaten
Prof. Dr. Michael Krawczak, UKSH, stellte vor, dass der Schutzbedarf genomischer Daten auf den ersten Blick hoch sei, da bei einer Re-Identifizierung ein Risiko für Stigmatisierung und Diskriminierung nicht nur für die betroffene Person, sondern auch für ihre Verwandtschaft ausgehen kann. Er wies jedoch darauf hin, dass für die Interpretation genomischer Daten ein hohes wissenschaftliches Fachwissen notwendig sei und dass generell die Schutzwürdigkeit von verschiedenen genomischen Datenkategorien differenziert betrachtet werden sollte. Die Gesamtgenom-Sequenz habe beispielsweise einen höheren Schutzbedarf als SNP (Single Nucleotide Polymorphisms).
Prof. Dr. Tobias Penzkofer von der Charité - Universitätsmedizin Berlin ergänzte, dass der Schutzbedarf von Bilddaten ebenfalls hoch sei. Diese enthielten eine große Menge an identifizierenden Informationen, zum Beispiel anatomische, pathologische oder demographische Hinweise und oft weitere Metadaten. Bilddaten und ihre potentiell identifizierbaren Merkmale könne man in unterschiedliche Schutzkategorien untergliedern. Technische Lösungen, wie Defacing, Metadaten-Ersatz, aber auch organisatorische Lösungen (Verarbeitung durch qualifiziertes Personal) könnten diese Daten schützen. Es sei nötig, sich diesen Problemen zu stellen und wirksame Maßnahmen zu ergreifen.
SPE des Forschungsdatenzentrums im BfArM
Dr. Christian Brachem vom BfArM stellte vor, wie beim Forschungsdatenzentrum (FDZ) Gesundheit Abrechnungsdaten der gesetzlich Krankenversicherten (ambulant und stationär) und ePA-Daten in einer SPE bereitgestellt werden sollen. Das FDZ Gesundheit schätzte den Schutzbedarf der DaTraV-Daten nach den Kriterien des Bundesamts für Sicherheit in der Informationstechnik (BSI) als „hoch“ ein. Das BfArM stehe weiterhin in enger Abstimmung mit dem BSI und der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI).
Das FDZ betreibt ein eigenes Rechenzentrum mit eigener Infrastruktur, das Zonen mit hohem und niedrigem Schutzbedarf trennt. Forschende stellen über das Antragsportal einen Antrag auf Datennutzung und erhalten bei Genehmigung Zugang zu der sicheren Verarbeitungsumgebung (virtualisierter Browser). Dort liegen Testdaten, während die Echtdaten ausgelagert sind.
Nur die Ergebnismenge kann das System der Echtdaten verlassen und dem Forschenden bereitgestellt werden. Dafür ist jeweils eine manuelle Prüfung notwendig. Für die Verknüpfung mit Genomdaten bestehe momentan keine gesetzliche Grundlage. Hauptkriterien, die für eine SPE beachtet werden sollten, seien die Stärkung des Datenschutzes und der IT-Sicherheit, mehr Transparenz und Sichtbarkeit sowie ein forschungsfreundlicher Workflow.
Erfahrungen aus England, Finnland und der Schweiz
Im Anschluss demonstrierten Beispiele aus England, Finnland und der Schweiz, wie Forschende in anderen europäischen Ländern in sicheren Datenverarbeitungsumgebungen auf nationale medizinische Datensammlungen zugreifen können.
Dr. Augusto Rendon von Genomics England erklärte, dass in England fünf Sicherheitsaspekte für SPEs gelten: safe people, safe projects, safe setting, safe data und safe outputs. Als Partner des National Health Service (NHS) wird bei Genomics England die Mehrheit der Services in privaten Clouds, u.a. bei Amazon, umgesetzt. Genutzt werden HL7-FHIR und NSH Standards. Er präsentierte die National Genomic Research Library, die aus einer Partnerschaft von National Health Service (NHS) England and Genomics England besteht.
Forschende haben Zugang zu einer sicheren Datenverarbeitungsumgebung über einen virtuellen Desktop. Dadurch seien Datensicherheit und Zugangskontrolle zu Services und Daten gewährleistet. Alle Analysen werden in der sicheren Datenverarbeitungsumgebung durchgeführt. Aggregierte Ergebnisse können die sichere Datenverarbeitungsumgebung verlassen, nicht jedoch Rohdaten. Die Forschungsplattform ist Cloud-basiert. Sie sei kostenpflichtig und nur teilweise durch Steuermittel finanziert. Die Kosten für die gesamte Infrastruktur schätzt er auf ca. 10 Millionen Pfund pro Jahr.
Heikki Lehväslaiho erläuterte den Ansatz des CSC – IT Center for Science aus Finnland, einem Non-profit-Unternehmen, das dem finnischen Staat und den Universitäten gehört. CSC bietet Cloud Computing Services in jeweils eigenentwickelten Cloud-Systemen. Es gibt sowohl einen virtuellen privaten Cloud-Service („ePouta“), der nur über das interne Netzwerk einer Organisation verfügbar ist, als auch „Sensitive Data Services“, die on-demand übers Internet verfügbar sind und den gesamten Forschungszyklus unterstützen sowie Zusammenarbeit ermöglichen. Lehväslaiho berichtete von den langjährigen Erfahrungen mit SPEs in Finnland und warnte insbesondere davor, zentralistische Ansätze zu wählen. Aus seiner Sicht seien föderierte Ansätze – auch auf europäischer Ebene – unumgänglich. Um föderierte Systeme zum Erfolg zu führen, sei wiederum das Identitätsmanagement von entscheidender Bedeutung.
Dr. Julia Maurer, Schweizer Institut für Bioinformatik (SIB), erläuterte, dass in der Schweiz ein dezentraler Ansatz gewählt wurde, bei dem Daten nur für Forschungsprojekte in sichere Kotenpunkte transferiert werden. Die sichere Forschungsumgebung des BioMedIT Networks bestehe aus drei physischen Knotenpunkten, die eine sichere Cloudumgebung und IT-Unterstützung für die Forschung bieten. Forschende erhalten nur die Analyseergebnisse, keine Daten. Sie stellte außerdem das Swiss Federated Genomics Network (SFGN) vor, das der Schweizerische Knotenpunkt für das European Genome-Phenome Archive ist und einen genomischen Datensatz erstellt. Sie hob hervor, dass vor allem gute Governance-Rahmenbedingungen für eine SPE notwendig seien sowie die Bereitschaft aller Stakeholder, die Öffentlichkeit einzubeziehen und die Kommunikation zu stärken, um die Akzeptanz der Bürgerinnen und Bürger zu erhalten.
Fazit
Der von der TMF organisierte Workshop bündelte die Expertise der beiden Initiativen genomDE und MII sowie weiterer nationaler Entwicklungen bei Behörden und Universitäten zum Thema SPE und zeigte den Vergleich zum europäischen Ausland auf. Es wurde deutlich, dass sowohl auf nationaler Ebene als auch im europäischen Raum noch viele Fragen zu SPEs ungelöst sind. Dazu zählen Anforderungen an die Föderierung von SPEs und die Frage nach den Betriebskosten und -aufwänden. Im Weiteren ist außerdem zu diskutieren, welche Funktionalitäten einer SPE priorisiert werden sollten. Die Teilnehmenden waren sich einig, dass modulare Systeme, die skalierbar und interoperabel sind, zu bevorzugen sind. Als Koordinationsstelle für genomDE und die MII wird die TMF die Erarbeitung von Anforderungen an eine SPE aus wissenschaftlicher Sicht weiterhin unterstützen.
Please find here the English version of the report
Secure processing environments (SPE) for medical data
Secure processing environments (SPE) for medical data
Demand in Germany and experiences from other European countries
On November 4th 2024, representatives of the genomDE and Medical Informatics Initiative (MII) projects, as well as experts from CSC Finland, Genomics England and the Swiss Institute for Bioinformatics, exchanged ideas at a joint workshop in Berlin. The Federal Ministry of Health, the Federal Ministry of Education and Research, the Federal Institute for Drugs and Medical Devices (BfArM), and the Robert Koch Institute (RKI) also took part in the event, which was organised by TMF e.V. The discussions revolved around the requirements for and experiences with secure processing environments (SPE) from the perspective of research and genomic medical care.
Sebastian C. Semler, TMF managing director and head of the coordination body for genomDE and the MII, began by explaining the extent to which an SPE is mandatory in certain jurisdictions: In the European Health Data Space (EHDS), secondary data use is currently only possible via an SPE. The EU Commission is expected to issue an implementing act in 2025 that will regulate further aspects. The German Health Data Use Act (GDNG) stipulates that criteria are to be developed for how data linkage can be carried out by an SPE in the future.
What is an SPE?
There is currently no standardised definition of an SPE. SPEs can be described as secure and regulated data processing infrastructures that enable providers and researchers to access sensitive health data while adequately maintaining the security of the data. Various definitions were mentioned in the presentations.
SPEs in the Model Project for Diagnostics and Therapy Selection by Means of Genome Sequencing for Rare and Oncological Diseases (MV GenomSeq)
Professor Thomas Berlage, Fraunhofer FIT, reported on the results of an initial workshop investigating the requirements for SPEs from use cases in medical care based on genomic information and research. He emphasised that, particularly in the Model Project Genome Sequencing, knowledge-generating care can only be achieved in secure processing environments. The developments of the German Human Genome-Phenome Archive (GHGA) can already be used here for the processing of genomic data.
For data services as a central utilisation concept in the Model Project Genome Sequencing, many open questions still need to be clarified. The aim is federated processing by all clinical and genomic data nodes. Data linkage with data from the clinical cancer registries and the research data centers, including the inclusion of health insurance data, must also be clarified. A separate computing instance with statistical tools and broker access to data sources could be considered here, for example.
Requirements from a clinical perspective
Dr Philipp Breitfeld, UKE Hamburg, presented the model of a secure local research data environment (Trusted Research Environment, TRE). For routine clinical data, a secure working environment and secure access to complex data are needed for more precise research while complying with data privacy and legal requirements. In addition, the efficient provision of computing resources and a collaboration platform is important.
The results of a survey conducted by the MII junior research group BENEFIT showed that clinicians demand low-threshold data access and want to be supported in their research workflow. They want to be able to collaborate across disciplines, involve clinical users in research and access specialised software. The technical requirements for a TRE include scalability (provision of a flexible infrastructure within the TRE in the face of growing data volumes and higher user numbers), interoperability, and data security and protection (e.g. security protocols, access controls).
The UKE in Hamburg has developed a solution with the so-called research platform ‘Datenhotel’. This makes it possible to conduct individual research with pseudonymised data from local standard care on the basis of state law. Among other things, the ‘Datenhotel’ serves to generate and/or simplify the data protection-compliant review of scientific research questions. A so-called transfer point exports the user's requested data, pseudonymised by the trust centre, to a room assigned to the user for the research question. In the ‘data hotel’, the clinical data from the local hospital information system (HIS) can only be accessed temporarily and cannot be downloaded. Access is only possible via specially protected computers.
With regard to the further development of TREs, he emphasised that the processing of big data, machine learning and the export of AI models and algorithms to the protected data processing environments still have limitations. These functions should be integrated in the future. Collaboration with external organisations is desirable.
Differentiated consideration of the need for protection of genomic and image data
Professor Michael Krawczak, UKSH, explained that the need for protection of genomic data is high at first glance, since a risk of stigmatisation and discrimination can arise not only for the person concerned but also for their relatives in the event of re-identification. However, he pointed out that a high level of scientific expertise is necessary to interpret genomic data and that, in general, the protection of different genomic data categories should be considered separately. For example, the whole genome sequence requires a higher level of protection than SNPs (single nucleotide polymorphisms).
Professor Tobias Penzkofer, Charité – Universitätsmedizin Berlin, added that image data also require a high level of protection. These contain a large amount of identifying information, for example anatomical, pathological or demographic information and often further metadata. Image data and their potentially identifiable characteristics could be subdivided into different protection categories. Technical solutions, such as defacing, metadata replacement, but also organisational solutions (processing by qualified staff) could protect these data. It was necessary to face these problems and take effective measures.
SPE of the Research Data Centre at the BfArM
Dr Christian Brachem, BfArM, presented how the Health Data Lab (HDL) intends to provide billing data of those with statutory health insurance (outpatient and inpatient) and ePA data in an SPE. The HDL assessed the protection requirements of the DaTraV data as ‘high’ according to the criteria of the Federal Office for Information Security (BSI). The Federal Ministry of Drugs and Medical Devices continues to work closely with the BSI and the Federal Commissioner for Data Protection and Freedom of Information (BfDI).
The HDL operates its own data centre with its own infrastructure, which separates zones with high and low protection requirements. Researchers submit a data use application via the application portal and, if approved, are given access to the secure processing environment (virtualised browser). Test data is stored there, while the real data is stored elsewhere.
Only the statistical results can be made available to the researcher, leaving the zone containing the real data. This requires a manual assessment in each case. There is currently no legal basis for linking with genome data. The main criteria to be considered for an SPE are strengthening data protection and IT security, increasing transparency and visibility, and ensuring a research-friendly workflow.
Experiences from Finland, England and Switzerland
Examples from Finland, England and Switzerland showed how researchers in other European countries can access national medical data collections in secure data processing environments.
Dr Augusto Rendon from Genomics England explained that five security aspects apply to SPEs in England: safe people, safe projects, safe setting, safe data and safe outputs. As a partner of the National Health Service (NHS), Genomics England implements the majority of its services in private clouds, including Amazon. HL7-FHIR and NSH standards are used. He presented the National Genomic Research Library, which is a partnership between National Health Service (NHS) England and Genomics England.
Researchers have access to a secure data processing environment via a virtual desktop. This ensures data security and access control to services and data. All analyses are carried out in the SPE. Aggregated results can leave the secure processing environment, but raw data cannot. The research platform is cloud-based. It is subject to a fee and only partially financed by tax revenue. He estimates the costs for the entire infrastructure at approximately 10 million pounds per year.
Heikki Lehväslaiho explained the approach of CSC – IT Center for Science from Finland, a non-profit company owned by the Finnish state and universities. CSC offers cloud computing services in self-developed cloud systems. There is a virtual private cloud service (‘ePouta’), which is only available via an organisation's internal network, as well as ‘sensitive data services’, which are available on-demand over the internet and support the entire research cycle, as well as enabling collaboration. Lehväslaiho reported on the many years of experience with SPEs in Finland and warned against adopting a centralised approach. In his view, federated approaches are unavoidable, including at the European level. In order to make federated systems a success, identity management is crucial.
Dr Julia Maurer from the Swiss Institute of Bioinformatics (SIB) explained that Switzerland has adopted a decentralised approach in which data is only transferred to secure nodes for research projects. The BioMedIT Network's secure research environment consists of three physical nodes that provide a secure cloud environment and IT support for research. Researchers receive the analysis results only, but not the data. She also presented the Swiss Federated Genomics Network (SFGN), which is the Swiss node for the European Genome-Phenome Archive (EGA) and is creating a genomic data set. She emphasised that, above all, a good governance framework is needed for an SPE, along with the willingness of all stakeholders to involve the public and to strengthen communication in order to gain public acceptance.
Conclusion
The workshop with focus on SPE, organised by the TMF, brought together the expertise of the two initiatives, genomDE and MII, as well as other national developments at federal authorities and universities. Moreover, it showed a comparison with other European countries, which made clear that many questions regarding SPEs remain to be answered at both the national and European level.
These include requirements for the federation of SPEs and the question of operating costs and expenses. Furthermore, it is also necessary to discuss which functionalities of an SPE should be prioritised. The participants agreed that modular systems that are scalable and interoperable are to be preferred. As the coordination body for genomDE and the MII, the TMF will continue to support the development of requirements for an SPE from a scientific perspective.