Medizinische Einrichtungen verwenden typischerweise lokal eindeutige Kennungen (sog. Local Identifier), um medizinische Daten einer Person eindeutig zuzuordnen. Diese Kennungen haben jedoch nur innerhalb der jeweiligen Domäne (z.B. Klinik) Gültigkeit. Datensätze identifizierender Daten zur selben Person können in verschiedenen Quellen aufgrund von Schreibfehlern oder zwischenzeitlichen Änderungen voneinander abweichen, so dass es bei der Zusammenführung von Daten (Record-Linkage) zu Zuordnungsfehlern kommen kann. Werden Daten verschiedener Personen fälschlicherweise einer einzigen Person zugeordnet, entsteht ein Homonymfehler. Im umgekehrten Fall spricht man von einem Synonymfehler. Ersterer ist fatal und im Nachgang nur mit sehr hohem Aufwand korrigierbar, letzterer immerhin technisch unter Zuhilfenahme weiterer Daten auflösbar.

Um Forschungsdaten aus mehreren Projekten und Studien zusammenführen und einer einzigen Person zuordnen zu können, ist sowohl ein Dublettenverfahren als auch eine eineindeutige systemweite Kennung erforderlich, der sowohl die personenidentifizierenden Daten, als auch die einzelnen lokalen Kennungen des Quellsystems (z.B. Labore, Studienzentralen, etc.) zugeordnet sind. Da dies auch bei unvollständigen oder fehlerhaften Personendaten fehlertolerant und nachvollziehbar erfolgen muss, ist ein nachhaltiges ID-Management erforderlich.

Zweck des ID-Managements ist es, Personendaten unter Vermeidung von Homonymfehlern sicher bereits vorhandenen Datensätzen zuzuordnen und potentielle Dubletten zu erkennen. Ergebnis dieser Zuordnung ist eine systemübergreifende eineindeutige Kennung. (Diese stellt gemäß den Konzepten der TMF ein Pseudonym erster Stufe dar. (Quelle: TMF 2004, https://www.tmf-ev.de/Themen/Projekte/V015_01_PID_Generator.aspx, Stand: 10. März 2014)

Am Institut für Community Medicine der Universitäts­medizin Greifswald wurde hierfür der Webservice E-PIX entwickelt. Die kostenlose Software ist Open Source und lizensiert unter der AGPLv3 (mehr dazu unter den Nutzungsbedingungen).

Der E-PIX-Service

Der E-PIX-Service (kurz für: Enterprise Patient Identifier Crossreferencing) setzt das Konzept eines Master Patient Index (MPI) um und stellt die notwendige technische Funktionalität zur eindeutigen Identifizierung von Personen in Form eines Webservices bereit. Frei konfigurierbare Personenattribute, typischerweise Vorname, Nachname, Geburtsdatum, Geschlecht, sind Grundlage für die probabilistischen Verfahren zur Erkennung von Dubletten.
Zur Dublettenerkennung kommt ein Algorithmus auf Basis der Levenshtein-Distanz zum Einsatz. Auf diese Weise kann die Zuordnung von Person und eindeutiger systemübergreifender Kennung auch bei unvollständigen bzw. fehlerhaften demografischen Informationen korrekt erfolgen.

Der E-PIX unterscheidet sich vom Ansatz des PID-Generators der TMF nicht nur in Bezug auf die verwendeten Algorithmen, sondern auch in Bezug auf die Speicherung domänenspezifischer lokaler Identifier und die Unterstützung standardisierter IHE-Profile (PIX, PDQ). Zudem ermöglicht das Konzept multipler Personenidentitäten, d.h. einer real existierenden Person können mehrere Ausprägungen (ähnlicher) demografischer Daten zugeordnet sein, die technische Unterstützung beim Auflösen von Synonymfehlern.

Begriffsbestimmungen

Person    

Eine natürliche Person, bestehend aus mindestens einer Personenidentität.

Personentyp

Typ einer Person, z.B. Patient, Arzt, etc.

Personenidentität

Bezeichnet im Wesentlichen die Ausprägung eines IDAT-Satzes (personenidentifizierende Daten) einer Person, z.B. verschiedene Schreibweisen. Eine Person kann mehre Identitäten (Haupt- und Aliasidentitäten) besitzen.

Identifier einer Personenidentität

Eineindeutige ID zum Identifizieren einer Personenidentität

Lokaler Identifier

Lokaler (externer) Identifier, z.B. Patienten-ID aus einem KIS-System. Die PID kann in ihrer Funktion als Identifier auch als LID betrachtet werden.

Lokale Domain(oder auch Identifier Domain)

Quellsystem, z.B. ein Krankenhaus oder ein Forschungsprojekt

Match

Auf Basis von Konfigurationsparametern und Wichtungen errechnete Ähnlichkeit zweier Datensätze z.B. Vorname, Nachname, Geburtsdatum, etc.

Matching-Score

algorithmisches Ähnlichkeitsmaß

Perfect Match

Vollständige Übereinstimmung der konfigurierten Parameter

Unsicherer Match

Möglicher Match eines Eingabe (IDAT-) Datensatzes mit einer Personenidentität einer vorhandenen Person, welcher nicht automatisch aufgelöst werden kann.

Das Konzept der Nebenidentitäten

Vor allem bei epidemiologischen Kohortenstudien ist es oftmals erforderlich, die Variationen von identifizierenden Daten beispielsweise in Bezug auf die (vielleicht fehlerhafte) Schreibweise eines Namens: Müller, Mueller, Muller, Mülller, etc. im jeweiligen Quellsytem zu erhalten und dennoch die Datensätze eineindeutig einer real existierenden Person fehlerfrei zuordnen zu können.

Innerhalb des E-PIX kann eine Person mehrere Identitäten besitzen, wovon nur eine als Hauptidentität deklariert werden kann. Die Hauptidentität wird als „die korrekte Ausprägung“ der identifizierenden Daten angesehen. Jede weitere Ausprägung wird als Nebenidentität gespeichert. Ein nachträgliches Ändern der Identitätenbeziehungen ist probemlos möglich, sollte jedoch nur durch autorisiertes Personal (der Datentreuhänder) und nach eingehender Recherche der Sachlage erfolgen.

Das Konzept von Haupt- und Nebenidentitäten ist in epidemiologischen Kohortenstudien von besonderer Relevanz und ist gleichzeitig Grundlage für das Beheben möglicher Synonymfehler.

Was leistet der Dienst

  • Erstellung und Verwaltung einer systemweit eindeutigen Kennung mittels Indexgenerator nach dem Konezpt des Master Person Index
  • Zusammenführung von Personendaten aus unterschiedlichen Quellsystemen anhand demographischer Informationen
  • Umgang mit fehlerhaften/unvollständigen Personendaten
  • Unterstützung bei der Rekontaktierung durch die integrierte Personenverwaltung
  • Unterstützung beim Auflösen von Synonymfehlern (mögliche Matches) durch Konzept von Haupt- und Nebenidentitäten
  • Unterstützung der IHE-Profile PIX & PDQ (PIX ist derzeit noch ohne Update Notification)
  • Authentifizierung und Authorisierung über JAAS
  • Protokollierung von Systemprozessen und kritischen Systementscheidungen
  • Beschleunigtes Matching durch Caching: die für den Matching-Prozes erforderliche Datenbasis wird vollständig im Zwischenspeicher
    gehalten und erlaubt beispielsweise Antwortzeiten beim Anlegen oder Aktualisieren einer Person und einem Datenbestand von bereits 100.000 Patienten
    in weniger als 2 Sekunden

Was leistet der Dienst nicht

  • Eine automatisierte Transkription und Transliteration von demografischen Informationen ist nicht möglich.
  • Die Vergabe von Pseudonymen zweiter Stufe ist nicht möglich. (Dies ist jedoch durch Kombination des E-PIX- und des gPAS-Services problemlos möglich.)

Welche Ressourcen sind für die Nutzung des Dienstes erforderlich

Technisch

  •     Ubuntu Server (oder vergleichbar) mit min. 4 GB RAM,  min. 2GB freier Festplattenspeicher (100.000 Personendatensätze entsprechen rund 200 MB)  und  installiertem JRE7, MySQL 5.6 (oder höher) und JBoss Wildfly 8
  •     Volle administrative Rechte zum Anlegen der Datenbank und für Zugriffe auf die Datenbank von intern und extern (Port 3306)
  •     Administrative Rechte zum Neustarten des Anwendungsservers und Einsehen der Log-Files
  •     Keine Nutzungsbeschränkungen auf die bereitgestellten Service- und Client-URLs

Personell

  •     ein Verantwortlicher mit grundlegenden IT-Kenntnissen zur Administration des Servers und zur Einrichtung des E-PIX-Dienstes (plus Wartung und regelmäßige Sicherung der E-PIX-Datenbank)
  •     ein autorisierter Verantwortlicher zur Admininistration und Pflege der E-PIX-Inhalte inkl. zur Auflösung möglicher Matches NACH ausführlicher Prüfung der individuellen Sachlage

Technischer Rahmen des Dienstes

  • 3-Schichten-Architektur über Java EE 6
  • standardisierte Webservice-Schnittstelle durch Verwendung von WSDL, SOAP, WS-Security, EJB3, JPA
  • Authentifizierung und Authorisierung über JAAS und den Einsatz von OOIDs
  • Generierung der MPI IDs mittels EAN 13 Verfahren
  • Deduplication-Engine, bestehend aus Matching-Framework (Record Linkage), Audit Trail Komponente, Mechanismen zur Protokollierung von Zugriffen und kritischen Systementscheidungen, umfassende Historisierungsfunktionen
  • Deployment mittels Maven

Kontakt

Bitte nutzen Sie unser Kontaktforumlar für Fragen und Anregungen oder wenden Sie sich direkt an einen der folgenden Ansprechpartner:

Lars Geidel            (lars.geidel@uni-greifswald.de, 03834-86 7569)

Martin Bialke     (Martin.Bialke@uni-greifswald.de, 03834-86 7580)

Download
Produktbrief

Personen erfassen

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua.

Doppler auflösen

At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.

Listen verarbeiten

Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor.

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat?

JETZT AUSPROBIEREN.