RiCO-Datenfluss
Wie eingangs beschrieben, werden für eine Pharmakovigilanzstudie zu den COVID-19-Impfungen drei Datensätze benötigt. Dabei handelt es sich um zwei Datensätze (in der unteren Abbildung bezeichnet als Datensatz 2a und Datensatz 2b) mit den Daten des Impfgeschehens aus den ersten Pandemiejahren. Diese Daten stammen einmal aus der initialen Impfkampagne in Impfzentren, Pflegeeinrichtungen etc. und wurden über das Digitale Impfmonitoring gesammelt (Datensatz 2a). Sie stammen außerdem aus den anfänglichen Impfungen im ambulanten Sektor, bevor eine Vergütung im Rahmen des SGBV durch die Gesetzlichen Krankenversicherungen erfolgte und wurden über die Kassenärztlichen Vereinigungen gesammelt (Datensatz 2b). In beiden Datensätzen sind Informationen zum Impfzeitpunkt, dem verwendeten Wirkstoff, der Impfserie (wievielte Impfung der Person), dem Impfgrund und weitere Informationen, wie z. B. die PLZ des Wohnortes enthalten, ebenso wie mehrere pseudonymisierte Identifikatoren. Zusätzlich werden Routinedaten der Gesetzlichen Krankenversicherung (Datensatz 1) benötigt, um einerseits die zu beobachtenden Endpunkte zur Pharmakovigilanz (wie beispielsweise Krankenhauseinweisungen) und andererseits relevante Einflussgrößen (wie Morbiditätslast, Medikation) zu operationalisieren.
Abbildung: RiCO-Datenfluss – vereinfachte Darstellung
Quelle: Paul-Ehrlich-Institut
Die Abbildung zeigt eine vereinfachte Version des Datenflusses, der benötigt wird, um die Zusammenführung dieser Daten zu erreichen. Die entscheidende Rolle spielen dabei die unterschiedlichen Identifikatoren (Name, Geburtsdatum, Versichertennummer) in den Datensätzen, die es überhaupt erst ermöglichen, die Daten auf der Ebene einzelner Versicherter zusammenzuführen. Zur Wahrung der Datensicherheit durchliefen diese Identifikatoren ein mehrstufiges Pseudonymisierungsverfahren.
Ausgangspunkt und schwächstes Glied in der Kette sind die Identifikatoren in den DIM-Impfdaten (Datensatz 2a). Diese basieren auf dem Vor- und Nachnamen und dem Geburtsdatum der geimpften Person, wie sie im Impfzentrum erfasst wurden. Insbesondere in den ersten Wochen und Monaten der Impfkampagne konnten diese auf handgeschriebenen Listen beruhen, in denen die Mitarbeitenden in den Zentren die Informationen nach mündlicher Mitteilung durch die zu impfende Person aufschrieben.
Ebenso kamen elektronische Erfassung und das Auslesen der Krankenversichertenkarte zum Einsatz. Die Art der Erfassung ist aus den generierten Daten nicht ersichtlich. Aus diesen drei Identifikatoren wurde durch Konkatenation und Hashwertbildung ein Pseudonym generiert. Dieser Vorgang wurde viermal durchgeführt: zum einen auf Basis der Originalangaben, zum anderen nach Normierung der Schreibweise sowie Anwendung zweier phonetischer Aufbereitungen mit dem Ziel, Fehler in den Ausgangsangaben abzufangen. Die so entstandenen vier Pseudonyme wurden an die Bundesdruckerei übermittelt und dort mit einem nur der Bundesdruckerei bekannten Salzwert (als Schlüssel) erneut gehasht und als Pseudonyme an Robert Koch-Institut/Paul-Ehrlich-Institut weitergeleitet.
In den Impfdaten der KVen kommen dieselben Identifikatoren und Pseudonyme zum Einsatz. Nach den verfügbaren Informationen erfolgte die Erfassung von Vorname, Nachname und Geburtsdatum hier – wie im System der GKV üblich – überwiegend über das Einlesen der Krankenversichertenkarte und nur in Einzelfällen über das sogenannte Ersatzverfahren mit manueller Erfassung der Personenangaben.
Somit ist von einer gerade gegenüber der handschriftlichen Erfassung deutlich reduzierten Rate von Schreibfehlern auszugehen. Im KV-System wird ein fünftes Pseudonym (ebenfalls als Hashwert) auf Basis der Krankenversichertennummer (KVNR) gebildet. Da die KVNR ein Unique Identifier ist, ist auch das hieraus gebildete Pseudonym als eindeutig anzusehen.
Aus den GKV-Routinedaten können ebenfalls alle fünf beschriebenen Identifikatoren bzw. Pseudonyme gebildet werden, in dem diese durch das Verfahren der Bundesdruckerei geleitet werden.
Die Impfdaten (2a und 2b) wurden von der Bundesdruckerei zunächst an das Robert Koch-Institut und von diesem dann an das Paul-Ehrlich-Institut weitergeleitet. Dies entspricht dem im Rahmen der Impfkampagne und der gesetzlichen Grundlage für das Impfmonitoring festgelegten Vorgehensweise. Die für die Zwecke der RiCO-Studie hinzukommenden Routinedaten (Datensatz 1) werden von der Bundesdruckerei direkt an das Paul-Ehrlich-Institut weitergeleitet. Dort werden alle drei Datensätze zusammengeführt und können in einer gesicherten Serverumgebung ausgewertet werden.