Seltene Erkrankungen durch künstlich erzeugte Daten erforschen

Seltene Erkrankungen betreffen Millionen von Menschen in Deutschland. Oft stehen nicht ausreichend Daten zur Verfügung, um sie frühzeitig zu erkennen, zu erforschen und zu behandeln. Expert:innen aus Informatik und Medizin haben bei einem Sandpit der Wübben Stiftung Wissenschaft die Basis für den Aufbau einer offenen Datenbank gelegt.

Die erbliche Herzmuskelerkrankung ARVC ist eine der rund 7000 seltenen Erkrankungen, die nur einen unter vielen Tausend Menschen betreffen. Bei der „arrhythmogenen rechtsventrikulären Kardiomyopathie“ wächst in der rechten Herzkammer Fett- und Bindegewebe, wo eigentlich Muskelzellen hingehören. Die Folge: Herzrhythmusstörungen. Das Risiko: plötzlicher Herztod.

„Patient:innen mit seltenen Erkrankungen wie ARVC bekommen oft über viele Jahre keine korrekte Diagnose, meist dauert es fünf bis sieben Jahre, bis die Krankheit erkannt wird“, sagt Jannik Schaaf von der Goethe Universität Frankfurt/Universitätsmedizin. Der Medizininformatiker hat es sich zur Aufgabe gemacht, die Datenlage zu verbessern, damit die schwer zu erkennenden Krankheiten schneller diagnostiziert und erforscht werden können. Denn für nur etwa fünf bis zehn Prozent dieser Erkrankungen gibt es bisher eine Therapie. „Meistens bekommen die Betroffenen nur eine symptomatische Therapie, die die Lebensqualität verbessern soll.“

Die Fallzahlen rücken in die Nähe von Volkserkrankungen und sind eine große Belastung für das Gesundheitssystem. Wir müssen die Forschung unbedingt vorantreiben und eine wichtige Basis dafür sind Daten.

Jannik Schaaf

Die meisten seltenen Erkrankungen sind genetisch bedingt und treten im Kindesalter auf, etwa 20 Prozent später im Leben, zum Beispiel durch Vireninfektionen. Summiert man die Patient:innenzahlen auf, sind sie zusammengenommen keineswegs selten: Allein in Deutschland gibt es rund vier Millionen Betroffene. „Damit rücken die Fallzahlen in die Nähe von Volkserkrankungen und sind eine große Belastung für das Gesundheitssystem“, sagt Schaaf. „Wir müssen die Forschung unbedingt vorantreiben und eine wichtige Basis dafür sind Daten.“

Im Juni 2025 kamen 13 Expert:innen aus Medizin, Informatik, Wirtschaft und Patientenvertreter:innen bei einem Sandpit der Wübben Stiftung Wissenschaft zusammen, um die digitale Plattform SHARE zu entwickeln, die Forschenden weltweit Daten zu seltenen Erkrankungen zur Verfügung stellen soll. SHARE, dessen Name für „Synthetic Health dAta REpository“ steht, setzt auf synthetische Daten statt auf reale Patient:innendaten.

Synthetische Daten können rechtliche Fallstricke umgehen

Synthetische Daten werden mit Hilfe von KI auf Basis realer Daten generiert. Medizinisches Personal prüft und optimiert das Ergebnis. So entstehen künstliche Datensätze, die echten Patient:innendaten statistisch sehr ähnlich sind – etwa in Bezug auf Symptome, Laborwerte oder familiäre Vorgeschichte –, aber keine direkten Rückschlüsse auf die betroffenen Personen erlauben. Forschende können diese Daten nutzen, um zum Beispiel KI-Modelle für die Diagnose seltener Erkrankungen oder die Therapieentwicklung zu entwickeln. „Man kann mit synthetischen Daten künstliche Patient:innen mit unterschiedlichen Eigenschaften erzeugen und prüfen, wie sie auf ein Medikament reagieren“, sagt Schaaf.

Synthetische Daten sind ‚Enabler‘ von Forschung und Entwicklung und können das Verständnis sowie die Diagnostik und Therapie von seltenen Erkrankungen grundlegend beschleunigen.

Benedikt Langenberger

Bisher sind Daten zu seltenen Erkrankungen für Forschende oft nur umständlich beschaffbar. Zwar gibt es mittlerweile an allen Universitätskliniken Datenintegrationszentren, doch die Bereitstellung dauert aufgrund datenschutzrechtlicher Regelungen lange und oft fehlt eine Standardisierung. Die künstlichen Daten, auf denen SHARE basiert, werden hingegen offen zugänglich, anonymisiert und so vereinheitlicht sein, dass sie einfach genutzt werden können.

Gerade für seltene Erkrankungen mit geringer Fallzahl sind synthetische Daten wichtig, um Kohorten mit statistischer Relevanz zu erzeugen. Patient:innendaten aus verschiedenen Krankenhäuser und unterschiedlichen EU-Ländern können in ihnen zusammenfließen, ohne dass diese für jeden Anwendungsfall langwierig beantragt und aufbereitet werden müssen. „Synthetische Daten sind ‚Enabler‘ von Forschung und Entwicklung und können das Verständnis sowie die Diagnostik und Therapie von seltenen Erkrankungen grundlegend beschleunigen“, sagt Benedikt Langenberger vom Digital Health Cluster des Hasso-Plattner-Instituts in Potsdam, der an der Entwicklung von SHARE beteiligt ist.

Drei Tage von Ideen zu konkreten Lösungen

Das interdisziplinär ausgelegte Sandpit-Format der Wübben Stiftung bot die Möglichkeit, SHARE von vielen Seiten zu durchdenken und zu konzipieren. „Wo hat man schon mal die Gelegenheit, sich drei Tage lang in ungestörter Umgebung und mit ganz unterschiedlichen Fachleuten aus verschiedenen Ländern einem Thema zu widmen?“, fragt Jannik Schaaf.

Tag eins startete mit zwei Impulsvorträgen zum Thema. Der Gesundheitsökonom und Medizininformatiker Andreas Goldschmidt brachte die Anwesenden auf den aktuellen Wissensstand. Ruth Biller vom ARVC-Selbsthilfe-Verein, deren Tochter mit 14 Jahren plötzlich an der Herzmuskelerkrankung gestorben ist, ergänzte die Perspektive der Betroffenen. „Ich setze mich dafür ein, dass anderen Familien unser Schicksal erspart bleibt“, sagt Biller. „Gute Daten sind unglaublich wichtig, weil ohne sie und ohne Patientenregister im Bereich seltener Erkrankungen keine evidenzbasierte Medizin möglich ist.“

In einem intensiven Brainstorming sammelten die Teilnehmenden anschließend die größten Herausforderungen, die auf dem Weg zu einer funktionierenden SHARE-Plattform bewältigt werden müssen. In einem „World-Café“ priorisierten sie diese in kleinen Tischgruppen. Am Ende blieben vier zentrale Herausforderungen: Die eindeutige Festlegung der Ziele von SHARE, die Sicherstellung der Qualität der Daten, ihre Nutzerfokussierung sowie ihre Vereinheitlichung.

Am zweiten Workshop-Tag halfen interaktive Design-Thinking-Methoden den Teilnehmenden, Lösungsideen zu formulieren, auszuarbeiten und zu priorisieren. Das Ergebnis war eine konkrete „Roadmap“ für die nächsten Schritte: Neben einem mittlerweile veröffentlichten Fachbeitrag ist ein Hauptziel die Entwicklung eines Prototyps von SHARE. Er soll in einem breiten Netzwerk von Expert:innen aus Forschung, Klinik und Ethik sowie in Abstimmung mit Patientenvertreter:innen entstehen und zunächst nur Daten zu wenigen seltener Erkrankungen umfassen, darunter ARVC.

Im Alltag würde man sich an solch ein komplexes Thema gar nicht ran wagen, weil es einfach zu aufwendig ist, aber mit dem Sandpit konnten wir eine gute Basis legen.

Jannik Schaaf

Die Aufgabe, vor der Jannik Schaaf und seine Mitwirkenden jetzt stehen, ist gewaltig. „Im Alltag würde man sich an solch ein komplexes Thema gar nicht ran wagen, weil es einfach zu aufwendig ist, aber mit dem Sandpit konnten wir eine gute Basis legen“, sagt Schaaf, der als Medizininformatiker bereits in einem vom Bundesministerium für Gesundheit geförderten Forschungsprojekt an der Entwicklung eines KI-Modells mitgewirkt hat, das Hausärzte dabei unterstützt, Diagnosen bei unspezifischen Symptomen zu stellen. Ein Prototyp existiert bereits.

Eine Kerngruppe aus dem Sandpit beantragt jetzt eine EU-Förderung, um den Prototyp zu entwickeln. Wenn alle technischen und rechtlichen Fragen geklärt sind, könnte zum Beispiel die Gründung eines Unternehmens oder einer alternativen Organisationsform folgen, um die Plattform zu pflegen und langfristig wertvolle Basisdaten zu gewinnen. „Wir müssen Forschende motivieren, ihre Daten bereitzustellen, damit wie daraus synthetische Datensätze generieren können“, sagt Schaaf. Seine Hoffnung ist, dass eine große Community heranwächst, die den Sinn erkennt und Daten aus eigenen Stücken hochlädt. „Wenn wir es schaffen, dass synthetische Daten zu einer Selbstverständlichkeit werden, dann wird das einen spürbarer Nutzen für die Patient:innen bringen.“

Jannik Schaaf ist Professor für Digital Health im Anwendungsfeld Chronisch und Seltene Erkrankungen sowie stellvertretender Direktor des Instituts für Medizininformatik an der Goethe Universität Frankfurt/Universitätsmedizin. Er leitet den Forschungsbereich Digital Health & Künstliche Intelligenz.

Lebenswichtige Daten