Medizinische Einrichtungen verwenden typischerweise lokal eindeutige Kennungen (sog. Local Identifier), um medizinische Daten einer Person eindeutig zuzuordnen. Diese Kennungen haben jedoch nur innerhalb der jeweiligen Domäne (z.B. Klinik) Gültigkeit. Datensätze identifizierender Daten zur selben Person können in verschiedenen Quellen aufgrund von Schreibfehlern oder zwischenzeitlichen Änderungen voneinander abweichen, so dass es bei der Zusammenführung von Daten (Record-Linkage) zu Zuordnungsfehlern kommen kann. Werden Daten verschiedener Personen fälschlicherweise einer einzigen Person zugeordnet, entsteht ein Homonymfehler. Im umgekehrten Fall spricht man von einem Synonymfehler. Ersterer ist fatal und im Nachgang nur mit sehr hohem Aufwand korrigierbar, letzterer immerhin technisch unter Zuhilfenahme weiterer Daten auflösbar.
Um Forschungsdaten aus mehreren Projekten und Studien zusammenführen und einer einzigen Person zuordnen zu können, ist sowohl ein Dublettenverfahren als auch eine eineindeutige systemweite Kennung erforderlich, der sowohl die personenidentifizierenden Daten, als auch die einzelnen lokalen Kennungen des Quellsystems (z.B. Labore, Studienzentralen, etc.) zugeordnet sind. Da dies auch bei unvollständigen oder fehlerhaften Personendaten fehlertolerant und nachvollziehbar erfolgen muss, ist ein nachhaltiges ID-Management erforderlich.
Zweck des ID-Managements ist es, Personendaten unter Vermeidung von Homonymfehlern sicher bereits vorhandenen Datensätzen zuzuordnen und potentielle Dubletten zu erkennen. Ergebnis dieser Zuordnung ist eine systemübergreifende eineindeutige Kennung. (Diese stellt gemäß den Konzepten der TMF ein Pseudonym erster Stufe dar. (Quelle: TMF 2004, https://www.tmf-ev.de/Themen/Projekte/V015_01_PID_Generator.aspx, Stand: 10. März 2014)
Am Institut für Community Medicine der Universitätsmedizin Greifswald wurde hierfür der Webservice E-PIX entwickelt. Die kostenlose Software ist Open Source und lizensiert unter der AGPLv3 (mehr dazu unter den Nutzungsbedingungen).
Der E-PIX-Service
Der E-PIX-Service (kurz für: Enterprise Patient Identifier Crossreferencing) setzt das Konzept eines Master Patient Index (MPI) um und stellt die notwendige technische Funktionalität zur eindeutigen Identifizierung von Personen in Form eines Webservices bereit. Frei konfigurierbare Personenattribute, typischerweise Vorname, Nachname, Geburtsdatum, Geschlecht, sind Grundlage für die probabilistischen Verfahren zur Erkennung von Dubletten.
Zur Dublettenerkennung kommt ein Algorithmus auf Basis der Levenshtein-Distanz zum Einsatz. Auf diese Weise kann die Zuordnung von Person und eindeutiger systemübergreifender Kennung auch bei unvollständigen bzw. fehlerhaften demografischen Informationen korrekt erfolgen.
Der E-PIX unterscheidet sich vom Ansatz des PID-Generators der TMF nicht nur in Bezug auf die verwendeten Algorithmen, sondern auch in Bezug auf die Speicherung domänenspezifischer lokaler Identifier und die Unterstützung standardisierter IHE-Profile (PIX, PDQ). Zudem ermöglicht das Konzept multipler Personenidentitäten, d.h. einer real existierenden Person können mehrere Ausprägungen (ähnlicher) demografischer Daten zugeordnet sein, die technische Unterstützung beim Auflösen von Synonymfehlern.
Begriffsbestimmungen
Person
Eine natürliche Person, bestehend aus mindestens einer Personenidentität.
Personentyp
Typ einer Person, z.B. Patient, Arzt, etc.
Personenidentität
Bezeichnet im Wesentlichen die Ausprägung eines IDAT-Satzes (personenidentifizierende Daten) einer Person, z.B. verschiedene Schreibweisen. Eine Person kann mehre Identitäten (Haupt- und Aliasidentitäten) besitzen.
Identifier einer Personenidentität
Eineindeutige ID zum Identifizieren einer Personenidentität
Lokaler Identifier
Lokaler (externer) Identifier, z.B. Patienten-ID aus einem KIS-System. Die PID kann in ihrer Funktion als Identifier auch als LID betrachtet werden.
Lokale Domain(oder auch Identifier Domain)
Quellsystem, z.B. ein Krankenhaus oder ein Forschungsprojekt
Match
Auf Basis von Konfigurationsparametern und Wichtungen errechnete Ähnlichkeit zweier Datensätze z.B. Vorname, Nachname, Geburtsdatum, etc.
Matching-Score
algorithmisches Ähnlichkeitsmaß
Perfect Match
Vollständige Übereinstimmung der konfigurierten Parameter
Unsicherer Match
Möglicher Match eines Eingabe (IDAT-) Datensatzes mit einer Personenidentität einer vorhandenen Person, welcher nicht automatisch aufgelöst werden kann.
Das Konzept der Nebenidentitäten
Vor allem bei epidemiologischen Kohortenstudien ist es oftmals erforderlich, die Variationen von identifizierenden Daten beispielsweise in Bezug auf die (vielleicht fehlerhafte) Schreibweise eines Namens: Müller, Mueller, Muller, Mülller, etc. im jeweiligen Quellsytem zu erhalten und dennoch die Datensätze eineindeutig einer real existierenden Person fehlerfrei zuordnen zu können.
Innerhalb des E-PIX kann eine Person mehrere Identitäten besitzen, wovon nur eine als Hauptidentität deklariert werden kann. Die Hauptidentität wird als „die korrekte Ausprägung“ der identifizierenden Daten angesehen. Jede weitere Ausprägung wird als Nebenidentität gespeichert. Ein nachträgliches Ändern der Identitätenbeziehungen ist probemlos möglich, sollte jedoch nur durch autorisiertes Personal (der Datentreuhänder) und nach eingehender Recherche der Sachlage erfolgen.
Das Konzept von Haupt- und Nebenidentitäten ist in epidemiologischen Kohortenstudien von besonderer Relevanz und ist gleichzeitig Grundlage für das Beheben möglicher Synonymfehler.
Was leistet der Dienst
- Erstellung und Verwaltung einer systemweit eindeutigen Kennung mittels Indexgenerator nach dem Konezpt des Master Person Index
- Zusammenführung von Personendaten aus unterschiedlichen Quellsystemen anhand demographischer Informationen
- Umgang mit fehlerhaften/unvollständigen Personendaten
- Unterstützung bei der Rekontaktierung durch die integrierte Personenverwaltung
- Unterstützung beim Auflösen von Synonymfehlern (mögliche Matches) durch Konzept von Haupt- und Nebenidentitäten
- Unterstützung der IHE-Profile PIX & PDQ (PIX ist derzeit noch ohne Update Notification)
- Authentifizierung und Authorisierung über JAAS
- Protokollierung von Systemprozessen und kritischen Systementscheidungen
- Beschleunigtes Matching durch Caching: die für den Matching-Prozes erforderliche Datenbasis wird vollständig im Zwischenspeicher
gehalten und erlaubt beispielsweise Antwortzeiten beim Anlegen oder Aktualisieren einer Person und einem Datenbestand von bereits 100.000 Patienten
in weniger als 2 Sekunden
Was leistet der Dienst nicht
- Eine automatisierte Transkription und Transliteration von demografischen Informationen ist nicht möglich.
- Die Vergabe von Pseudonymen zweiter Stufe ist nicht möglich. (Dies ist jedoch durch Kombination des E-PIX- und des gPAS-Services problemlos möglich.)
Welche Ressourcen sind für die Nutzung des Dienstes erforderlich
Technisch
- Ubuntu Server (oder vergleichbar) mit min. 4 GB RAM, min. 2GB freier Festplattenspeicher (100.000 Personendatensätze entsprechen rund 200 MB) und installiertem JRE7, MySQL 5.6 (oder höher) und JBoss Wildfly 8
- Volle administrative Rechte zum Anlegen der Datenbank und für Zugriffe auf die Datenbank von intern und extern (Port 3306)
- Administrative Rechte zum Neustarten des Anwendungsservers und Einsehen der Log-Files
- Keine Nutzungsbeschränkungen auf die bereitgestellten Service- und Client-URLs
Personell
- ein Verantwortlicher mit grundlegenden IT-Kenntnissen zur Administration des Servers und zur Einrichtung des E-PIX-Dienstes (plus Wartung und regelmäßige Sicherung der E-PIX-Datenbank)
- ein autorisierter Verantwortlicher zur Admininistration und Pflege der E-PIX-Inhalte inkl. zur Auflösung möglicher Matches NACH ausführlicher Prüfung der individuellen Sachlage
Technischer Rahmen des Dienstes
- 3-Schichten-Architektur über Java EE 6
- standardisierte Webservice-Schnittstelle durch Verwendung von WSDL, SOAP, WS-Security, EJB3, JPA
- Authentifizierung und Authorisierung über JAAS und den Einsatz von OOIDs
- Generierung der MPI IDs mittels EAN 13 Verfahren
- Deduplication-Engine, bestehend aus Matching-Framework (Record Linkage), Audit Trail Komponente, Mechanismen zur Protokollierung von Zugriffen und kritischen Systementscheidungen, umfassende Historisierungsfunktionen
- Deployment mittels Maven
Kontakt
Bitte nutzen Sie unser Kontaktforumlar für Fragen und Anregungen oder wenden Sie sich direkt an einen der folgenden Ansprechpartner:
Lars Geidel (lars.geidel@uni-greifswald.de, 03834-86 7569)
Martin Bialke (Martin.Bialke@uni-greifswald.de, 03834-86 7580)
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat?