Der Einsatz bewährter Medikamente für neue Anwendungsgebiete sowie die Kombination verschiedener schon verfügbarer Präparate bieten einen erfolgversprechenden Ansatz bei der Behandlung komplexer Erkrankungen. Wirkstoffe, die zur Behandlung einer bestimmten Krebsart eingesetzt werden, bilden beispielsweise auch eine Grundlage für die Behandlung anderer Krebszellen. Komplexe bösartige Tumoren müssen oft mit einer Kombination aus verschiedenen Medikamenten behandelt werden, damit gleichzeitig mehrere Zellarten gezielt erreicht werden. Diese Präparatkombinationen helfen nicht nur, Arzneimittelresistenzen zu vermeiden, sondern können auch schädliche Nebenwirkungen minimieren.
Allerdings ist es sehr schwierig, eine wirksame Kombination der richtigen Medikamente in der richtigen Dosierung zu finden. Das liegt zum Teil daran, dass es nahezu unendlich viele Kombinationsmöglichkeiten gibt.
Heute stellen Facebook und das Helmholtz Zentrum München eine neue Methode vor, um die Entdeckung erfolgreicher Wirkstoffkombinationen zu beschleunigen. Wir haben das erste KI-Modell entwickelt, das die Wirkung verschiedener Medikamentenkombinationen, Dosierungen und Verabreichungszeiten vorhersagen und sogar andere Wechselwirkungen berücksichtigen kann, etwa Gen-Knockouts oder -deletionen. Dieses „Compositional Perturbation Autoencoder (CPA)“-Modell stellen wir mitsamt einer benutzerfreundlichen API und einem Python-Paket unter einer Open-Source-Lizenz zur Verfügung. Unsere Arbeit ist Gegenstand eines Forschungspapiers, das der wissenschaftlichen Gemeinschaft auf bioRxiv als Vorabveröffentlichung zur Verfügung steht. Diese Arbeit reichen wir außerdem bei einer Peer-Review-Zeitschrift zur Veröffentlichung ein.
Die Verarbeitung komplexer Veränderungen auf Molekularebene, etwa bei der Dosierung oder dem Zeitpunkt der Verabreichung, stellt computergestützte Methoden zur Erforschung neuer Kombinationen bislang vor unlösbare Herausforderungen. Sie können nur Wechselwirkungen zwischen Präparaten berücksichtigen, wenn diese bereits Teil des Trainingsdatensatzes waren. CPA nutzt stattdessen eine neuartige Technik zur Eigenüberwachung. Durch die Beobachtung von Zellen, die mit einer begrenzten Anzahl von Wirkstoffkombinationen behandelt werden, kann die Wirkung anderer Kombinationen vorhergesagt werden. Dazu ein vereinfachtes Beispiel: Angenommen, es liegen folgende Daten zur Wirkung von Medikamenten auf verschiedene Zellarten vor: A, B, C und A+B. Das Modell kann nun die zellspezifische Wirkung jedes Wirkstoffs (also die Wirkung auf verschiedene Zellarten) identifizieren und neu zusammensetzen, um so die Wirkungen anderer Kombinationen wie A+C oder B+C zu extrapolieren. Sogar das Zusammenspiel von A+B und C+D kann so simuliert werden.
Anhand von CPA können Arzneimittelforscher Thesen aufstellen, Versuchsanordnungen entwerfen und aus Milliarden möglicher Kombinationen diejenigen auswählen, die es sich im Labor zu untersuchen lohnt. Bislang bedurfte es beispielsweise jahrelanger Forschung und zahlloser Zelllinien-Experimente, um verschiedene Kombinationen von 100 Wirkstoffen und Dosierungen zu testen. Nun können Forscher alle möglichen Kombinationen „in silico“ (also virtuell) überprüfen – und das in nur wenigen Stunden. Aus den erfolgreichsten Ergebnissen lassen sich dann Hypothesen ableiten, die es zu überprüfen und weiter zu erforschen gilt. Darüber hinaus ist dies ein großer Schritt im Hinblick auf KI-Entwicklung, die zur kompositorischen Beweisführung fähig ist. Neben der Biomedizin eröffnet das auch weitere Anwendungsbereiche – eine solche KI könnte etwa ein besseres Sprachverständnis entwickeln. So ließe sich die Bedeutung von Sprache besser abbilden und sprachliche Konzepte wären differenzierter darstellbar.
Selbstüberwachung für die Untersuchung von Milliarden von Arzneimittel-Wechselwirkungen
In den letzten Jahren hat die Biologie große Fortschritte bei der RNA-Sequenzierung individueller Zellen gemacht. Heute sind deshalb mehr und genauere Daten verfügbar als je zuvor. Forscher und Wissenschaftler nutzen die RNA-Sequenzierung individueller Zellen heute, um die Genexpression einzelner Zellen auf Molekularebene zu analysieren und die Auswirkungen möglicher Störeinflüsse auf biologische Systeme (etwa durch Wirkstoffkombinationen oder Gendeletionen) zu untersuchen. Die biomedizinische Forschung nutzt öffentlich verfügbare Datensätze aus der Einzelzell-RNA-Sequenzierung, die von akademischen Forschern und Wissenschaftlern veröffentlicht wurden. Diese Datensätze enthalten Milliarden von Zellen und bis zu 20.000 Werte pro Zelle.
Diese hohe Informationsdichte stellt eine ideale Testumgebung für das maschinelle Lernen (ML) dar, um kombinatorische Vorhersagen zu verbessern. Bislang gab es keinen leistungsfähigen Ansatz, um die Wirkung neuer Präparatkombinationen oder anderer Störeinflüsse vorherzusagen. Wirkungsvorhersagen auf Basis dieser Daten sind besonders schwierig. KI-Modelle müssen hierfür lernen, anhand von relevanten Aspekten der Datenstruktur zu pauschalisieren und zu extrapolieren, ohne auf bereits erforschte Trainingsdaten zurückzugreifen.
Dieses Problem lösen wir durch eine neue Technik zur Eigenüberwachung. Mithilfe des sogenannten „Auto Encoding“ werden Daten „komprimiert“ und „dekomprimiert“. Bei diesem Prozess muss die Maschine die Daten zusammenfassen. So entstehen Muster, die für die Vorhersage genutzt werden können. Im vorliegenden Fall lernt der Autoencoder anhand unmarkierter genetischer Expressionsvektoren aus verschiedenen Bedingungen.
Unser Modell isoliert und untersucht zunächst die wichtigsten Eigenschaften einer Zelle, etwa die Wirkung eines bestimmten Medikaments, die Kombination, die Dosierung, die Verabreichungszeit, mögliche Gendeletionen oder die Zellart. Diese Eigenschaften kombiniert es dann eigenständig neu, um die Wirkung auf die Genexpressionen einer Zelle vorherzusagen. Die Funktionsweise des CPA-Modells lässt sich folgendermaßen veranschaulichen: Die verschiedenen Zelleigenschaften, etwa die Wirkung eines Präparats, die Kombination, die Dosierung und die Verabreichungszeit, entsprechen in unserem Beispiel dem „Outfit“ der Zelle. Dieses Outfit kann aus Hüten, Schals, Brillen und Mützen bestehen. Beim Training analysiert das CPA-Modell das vollständige Outfit der Zelle. Dann entfernt es Kleidungsstücke und fügt sie einzeln wieder hinzu, um mehr über die jeweiligen Elemente und die Zelle selbst zu erfahren. Während eines Tests trifft das Modell nun Vorhersagen zu den besten Outfits (oder wirksamsten Präparatkombinationen) – also beispielsweise dazu, wie ein Hut mit einem bestimmten Schal aussehen würde.
Genauer gesagt betrachtet unser CPA-Modell den RNA-Seq-Einzelzell-Datensatz von Zellen, die mit verschiedenen Wirkstoffen und Dosierungen behandelt wurden. Die Analyse umfasst dann die folgenden drei Schritte:
Zuerst wandelt ein Encoder-Netz die Genexpression einzelner Zellen aus dem Datensatz in eine „Zell-Repräsentation“ um. Ein Embedding-Netz wandelt die medikamentöse Behandlung dieser Zelle in eine „Behandlungs-Repräsentation“ um. Zusätzlich stellt ein Diskriminator-Netz sicher, dass die Zell- und Behandlungs-Repräsentationen keine Informationen über die jeweils andere Repräsentation erhalten. Im nächsten Schritt kombinieren wir die Zell- und Behandlungs-Repräsentationen zu einer „Bottleneck-Repräsentation“. Zuletzt kommt ein Decoder-Netz zum Einsatz, das die Bottleneck-Repräsentation wieder in einen Genexpressionsvektor überträgt. Das Modell ist so trainiert, dass die Ergebnisse des Decoders sich mit der Genexpression des ursprünglichen Datensatzes decken.
Im Schritt 1 des Trainingsprozesses versuchen wir, die Wirkung einer Zellbehandlung „rückgängig“ zu machen. In den Schritten 2 und 3 versuchen wir, die gleiche Behandlung für die gleiche Zelle „wiederherzustellen“. Im Training wird immer die gleiche Behandlung „rückgängig“ gemacht und dann „wiederhergestellt“. Hier setzen wir aber mit unserem CPA-Modell an und versuchen, kontrafaktische Fragen zu beantworten – etwa: „Wie hätte sich die Genexpression dieser Zelle verändert, wäre sie mit Wirkstoff B statt Wirkstoff A behandelt worden?“.
Hierzu machen wir in Schritt 1 Behandlung A „rückgängig“ und wenden dann in Schritt 2 und 3 Behandlung B an. Das CPA-Modell ist allerdings nicht auf die Einzelzell-RNA-Sequenzierung angewiesen und findet auch darüber hinaus Anwendung. Es kann auch ganz einfach auf traditionelle Bulk-RNA-Seq-Daten angewendet oder etwa für multimodale genomische Analysen erweitert werden.
Verlässliche Vorhersagen zu neuen Wirkstoffkombinationen
Um das CPA-Modell zu testen, nutzten wir es mit fünf öffentlich verfügbaren Datensätzen aus der RNA-Sequenzierung. Diese Datensätze enthalten Messwerte und Ergebnisse verschiedener Behandlungen, Dosierungen und anderer Störeinflüsse auf Krebszellen. Jeder Datensatz wurde dabei in Training, Test und Out-of-Distribution (OOD) unterteilt. Wir untersuchten die Leistungsfähigkeit unseres Modells im Hinblick auf das Bestimmtheitsmaß R2. Diese Kennzahl bezeichnet die Zuverlässigkeit unserer Vorhersagen bei der Expression einzelner Gene.
Der R2-Wert blieb bei allen Datensätzen im Training und beim Testen konstant und auch für OOD konnten wir hohe Werte erzielen. Die Vorhersagen des CPA-Modells zur Wirkung wichtiger Präparatkombinationen und Dosierungen auf Krebszellen stimmte also zuverlässig mit den Beobachtungen aus dem Testdatensatz überein. Um die Leistung unseres Modells weiter auf die Probe zu stellen, reduzierten wir den Umfang der Trainingsdaten und erhöhten gleichzeitig die Menge der OOD-Daten. Zwar ließ die Performance spürbar nach, die Vorhersagen waren aber qualitativ noch immer weit von Zufallswerten entfernt. Das Modell ist nicht für den Einsatz in solchen extremen Anwendungssituationen gedacht. Es ist aber aufschlussreich, seine Lernfähigkeit dahingehend zu untersuchen.
Blick in die Zukunft
Wir hoffen, dass dieses Open-Source-Tool in der pharmazeutischen und akademischen Forschung sowie in der Biologie helfen kann, schneller optimale Wirkstoffkombinationen für verschiedene Krankheitsbilder zu identifizieren. Die gebrauchsfertige Ausstattung mit API und Python-Paket ermöglicht es Forschern, auch ohne Hintergrundwissen zu maschinellem Lernen ihre Datensätze einzupflegen und Vorhersagen zu treffen.
Indem wir pharmazeutischen Laboren KI-Tools zur Verfügung stellen, wollen wir dabei helfen, die Suche nach optimalen Wirkstoffkombinationen und anderen Maßnahmen drastisch zu beschleunigen. Das könnte letztlich zur Entwicklung besserer Behandlungsmöglichkeiten für komplexe Erkrankungen wie Krebs oder neuartige Krankheiten wie COVID-19 beitragen.
Eines Tages könnte das CPA-Modell sogar völlig neue Möglichkeiten bei der Entwicklung medikamentöser Behandlungen eröffnen. Zukünftig könnte es nicht nur helfen, schneller neue Anwendungsmöglichkeiten für vorhandene Wirkstoffe zu identifizieren. Irgendwann könnte es auch in der Lage sein, personalisierte Behandlungen zu entwickeln und diese sogar auf einzelne Zellantworten abzustimmen. Dieses Forschungsgebiet gilt heute als eines der wichtigsten für die Medizin der Zukunft.