Kauft jemand, der Chips in seinen Einkaufswagen packt, immer Dips dazu? Oder ist es so: Wer einen Dip kauft, läuft weiter zum Chipsregal? Zu bestimmen, welches von zwei Ereignissen das andere bedingt, ist oft komplex. Ein neuartiges Prinzip von Informatikern der Universität des Saarlandes ermittelt kausale Beziehungen zwischen Ereignissen automatisch: Ihr Verfahren überprüft zwei Datensätze daraufhin, welcher mehr Informationen über den jeweils anderen enthält und schlüsselt so auf, welcher den anderen einst herbeiführte. Da das Prinzip auch in riesigen Datenmengen komplexe Zusammenhänge schnell berechnet, kann es bisherige Verfahren vereinfachen und enorm beschleunigen.
Scheint über der Piazza di Spagna in Rom die Sonne, stoßen Besucher dort auf Verkaufsstände, die Sonnenbrillen anpreisen. Regnet es jedoch, bieten die Verkäufer stattdessen Schirme feil. In diesem Szenario bestimmen die Wetterverhältnisse, was die Straßenverkäufer anbieten – und nicht umgekehrt. Ursache und Wirkung sind eindeutig. Für kompliziertere Fälle haben Informatiker der Universität des Saarlandes ein neuartiges Lösungsprinzip entwickelt: Ihr Algorithmus, genannt „Ergo“, berechnet die stärkste kausale Richtung zwischen zwei Datensätzen. Denn wer diese Richtung kennt, kann auch schlussfolgern, welcher der beiden Datensätze ursprünglich den anderen verursachte.
„Unser Prinzip gründet auf der Kolmogorow-Komplexität, diese gibt die simpelste Beschreibung eines Datensatzes an. Für unsere Forschung erweitern wir das und sagen: Die simpelste Beschreibung ist gleichzeitig auch die wahrscheinlichste“, erklärt Jilles Vreeken, Leiter der Nachwuchsgruppe „Exploratory Data Analysis“ am Exzellenzcluster „Multimodal Computing and Interaction“ der Saar-Uni. „Unser Algorithmus identifiziert, wie komplex es ist, einen Datensatz durch einen anderen zu beschreiben. Im ersten Schritt fragen wir uns: Enthält Datensatz A mehr Informationen über Datensatz B oder umgekehrt?“ Haben die Informatiker um Jilles Vreeken dies mithilfe von „Ergo“ identifiziert, können sie über Ursache und Wirkung schlussfolgern: Der Datensatz mit mehr Informationen über den anderen war auch anfänglich zuerst vorhanden.
„Nehmen wir ein Ei und ein Omelett als Beispiel, so enthält das Ei natürlich alle Informationen der Entität Ei. Das Omelett hingegen enthält hingegen nur noch Teilelemente des Eies“, erklärt Vreeken. „Im Prozess der Zubereitung des Omeletts gehen uns beispielsweise die Informationen zur Eierschale verloren. Der Weg vom rohen Ei zum Omelett ist somit einfacher, als umgekehrt – und damit auch wahrscheinlicher“. Bisherige Ansätze, die Ursache und Wirkung aufdröseln, konnten lediglich eindimensionale Informationsrichtungen erfassen. Das Verfahren der Informatiker vom Exzellenzcluster in Saarbrücken funktioniert jedoch in jede beliebige Richtung und fordert dafür nicht nur wenig Rechenkapazität ein, sondern funktioniert auch ohne Vorkenntnisse darüber, wie die Datensätze kausal zusammenhängen könnten: ob die Funktionen dahinter komplex sind, oder ob Störfaktoren in den Daten stecken.
„Der Algorithmus arbeitet präzise, selbst wenn wir mit Störfaktoren zu kämpfen haben, zum Beispiel in Form von ungenauen Messungen“, so Vreeken. „Genauso funktioniert ‚Ergo‘auch einwandfrei, wenn die Daten insgesamt komplexer werden. Verschiedene Kombinationen von Datensätzen sind kein Problem mehr – mit bisherigen Methoden war das nicht möglich.“ Heutzutage sind Ansätze wie die der Saarbrücker Informatiker in der Praxis immer häufiger gefragt. Beispielsweise wollen Bioinformatiker der Saar-Uni die Methode zu nutzen, um automatisch vorhersagen zu können, welche Gene andere aktivieren, ohne vorher zeitaufwändige Labortests durchführen zu müssen. „Gegenwärtig sind wir dabei, ‚Ergo‘ für die Praxis aufzurüsten. Wir arbeiten bereits mit Materialwissenschaftlern zusammen, die mit dem Algorithmus auf molekularer Ebene ermitteln wollen, welche Eigenschaften neue, künstlich erschaffene Materialien voraussichtlich haben werden“, sagt Vreeken. Auch Kooperationen mit Warenhausketten sind denkbar. Diese könnten die Technik von Vreeken und seinem Team nutzen, um abzusehen, wie erfolgreich Produkte in bestimmten Regionen verkauft werden könnten.
Weitere Informationen: http://people.mmci.uni-saarland.de/~jilles/ergo/