Saarbrücker Informatiker können Gesichter aus Videoaufnahmen realistisch rekonstruieren

Die Filmindustrie baut heute nicht mehr allein auf die Kunst der Schauspieler: Bei neuen Kinofilmen lässt sie deren Gesichter oft nach dem Dreh noch am Rechner bearbeiten. Spezialisten für Computeranimation benötigen dafür dreidimensionale Gesichtsmodelle (face rigs), die sie bislang über aufwändige Messverfahren erstellen und von Hand in die Filmszenen einbauen. Wie es einfacher und viel schneller geht, zeigen jetzt Forscher vom Max-Planck-Institut für Informatik und dem Multimedia-Konzern Technicolor. Ihnen reicht ein Standard-Video und einige Rechenpower, um äußerst detailreiche Gesichtsmodelle zu erzeugen. Die Informatiker haben dafür neue Methoden entwickelt, mit denen sie Oberflächen aus Videos rekonstruieren und am Computer verändern können.

Die Wissenschaftler des Max-Planck-Instituts für Informatik und der Universität des Saarlandes werden die neue Technik auf der Computermesse Cebit in Hannover vom 14. bis 18. März vorstellen (Halle 6, Stand D 28).

Als Brad Pitt in dem Kinofilm „Der seltsame Fall des Benjamin Button“ sein Leben rückwärts lebt und sich vom Greis zum Kleinkind verwandelt, ist nicht nur viel Make-up im Spiel. Jede einzelne Szene wurde am Computer nachbearbeitet, um Brad Pitts Gesicht äußerst realistisch und altersgemäß zu animieren. „In den großen Filmstudios wird an manchen Fünf-Sekunden-Szenen mehrere Wochen lang gearbeitet, um das Aussehen eines Schauspielers und die Proportionen von Gesicht und Körper fotorealistisch wiederzugeben. Dabei wird auch am Rechner noch viel von Hand nachgebessert“, sagt Christian Theobalt, Leiter der Gruppe „Graphics, Vision and Video“ am Saarbrücker Max-Planck-Institut und Informatik-Professor der Universität des Saarlandes. Die gleiche Technik wenden Filmemacher auch an, um Fantasy-Figuren wie Zombies, Orks und Faune in Filme einzubauen und ihnen traurige Mienen zu verpassen oder Lachfältchen an die Augen zu zaubern.

Christian Theobalt will gemeinsam mit seiner Forschergruppe dieses Verfahren nun wesentlich beschleunigen. „Eine Herausforderung ist dabei, dass wir den Gesichtsausdruck von Schauspielern sehr genau wahrnehmen und sofort merken, wenn ein Wimpernzucken nicht authentisch wirkt oder ein falsch geöffneter Mund nicht zum gesprochenen Text der Filmszene passt“, erläutert Theobalt. Um ein Gesicht mit allen Details zu animieren, benötigt man ein genaues dreidimensionales Gesichtsmodell, im Fachjargon face rig genannt. Darin werden auch die Lichtverhältnisse und Reflexionen der Filmszene eingepasst.

Dem Gesichtsmodell lassen sich mathematisch unterschiedliche Ausdrücke verpassen
„Dieses Gesichtsmodell können wir allein auf der Basis von Aufnahmen einer einzelnen Standard-Videokamera erzeugen. Wir schätzen dabei mit mathematischen Methoden die Parameter ab, die man benötigt, um alle Details des Gesichtsmodells zu erfassen. Dazu gehören nicht nur die Gesichtsgeometrie, also die Form der Oberflächen, sondern auch die Reflexionseigenschaften und die Szenenbeleuchtung“, erklärt der Informatiker. Diese Angaben reichten bei ihrem Verfahren aus, um ein individuelles Gesicht am Rechner realitätsgetreu zu rekonstruieren und es zum Beispiel mit Lachfältchen auf natürliche Weise zu animieren. „Es funktioniert als Gesichtsmodell wie ein vollständiges face rig, dem wir allein über mathematische Verfahren unterschiedliche Gesichtsausdrücke verpassen können“, sagt Theobalt. Der Algorithmus seines Teams enthält bereits die Information über zahlreiche Mienen, die unterschiedliche Emotionen ausdrücken. „Wir können also am Computer entscheiden, ob der Schauspieler oder Avatar eher fröhlich oder nachdenklich ausschauen soll und können ihm eine detailreiche Mimik geben, die es so vorher in den Filmaufnahmen nicht gab“ sagt der Saarbrücker Forscher.

In der Filmindustrie betreiben die Unternehmen für Spezialeffekte bisher einen hohen Aufwand, um zum gleichen Ergebnis zu kommen. „Heute werden die Proportionen eines Gesichts mit Scannern und Mehrkamerasystemen rekonstruiert. Dafür benötigt man eine komplizierte Beleuchtung mit speziellen Scheinwerfern“, sagt Pablo Garrido, Doktorand von Christian Theobalt an der Universität des Saarlandes. Erst vor kurzem wurde ein solches System im Weißen Haus aufgebaut, um für eine Büste von Barack Obama ein 3D-Modell zu erstellen. Mit der Saarbrücker Technologie wäre dies viel einfacher möglich gewesen.

„Bei den bisher genutzten Methoden braucht man zudem präzise choreografierte Gesichtsbewegungen, also Aufnahmen des jeweiligen Schauspielers, die zum Beispiel Freude, Wut oder Ärger im Gesicht widerspiegeln“, erläutert Garrido. Bei anderen Verfahren könne man zwar auch mit weniger detaillierten Modellen arbeiten, benötige dafür jedoch eine spezielle Tiefenkamera. Die Saarbrücker Forscher hatten vor kurzem selbst gezeigt, wie man sogar in Echtzeit mit einer Video- oder Tiefenkamera 3D-Gesichtsmodelle erzeugen kann. Diese sind jedoch längst nicht so detailreich wie die mit der neuen Methode erstellten. „Wir können mit beliebigem Ausgangsmaterial von einer normalen Videokamera arbeiten. Uns reicht auch eine alte Filmaufnahme, in der zum Beispiel ein Dialog zu sehen ist, um damit ein Gesicht präzise zu modellieren und zu animieren“, so der Informatiker. Mit dem rekonstruierten Modell könne man auch die Mundbewegungen eines Schauspielers in einem synchronisierten Film an die neue Sprache anpassen.

Die Technik verbessert die Kommunikation mit und durch Avatare

Das Verfahren ist aber nicht nur für die Filmindustrie interessant, sondern kann dabei helfen, Avataren in der virtuellen Welt, dem persönlichen Assistenten im Netz oder virtuellen Gesprächspartnern in zukünftigen Telepräsenzanwendungen ein realistisches persönliches Antlitz zu geben. „Unser Technik kann dafür sorgen, dass sich die Menschen bei ihrer Kommunikation mit und durch Avatare wohler fühlen“, sagt Theobalt. Für die fotorealistische Gesichtsrekonstruktion musste der Forscher gemeinsam mit seinem Team anspruchsvolle wissenschaftliche Probleme im Grenzgebiet der Computergrafik und Bilderkennung lösen. Die dahinter stehenden grundlegenden Methoden zur Messung von deformierbaren Oberflächen aus einzelnen Videos können auch in anderen Bereichen eingesetzt werden, zum Beispiel in der Robotik und bei autonomen Systemen oder bei Messungen im Maschinenbau.

Ihre Forschungsergebnisse werden Pablo Garrido und Christian Theobalt zusammen mit ihren Ko-Autoren Michael Zollhöfer, Dan Casas, Levi Valgaerts, Kiran Varanasi und Patrick Perez im wichtigsten Fachjournal der Computergrafik (ACM Transactions on Graphics) und auf der Siggraph 2016 präsentieren. Zwischen dem 14. und 18. März werden die Wissenschaftler die Technik auf der Cebit in Hannover am Messestand des Saarlandes (Halle 6, Stand D 28) präsentieren. Aus der Arbeitsgruppe von Theobalt ging auch das Startup-Unternehmen The Captury hervor. Dieses hat ein Verfahren entwickelt, mit dem die Körperbewegungen von Personen automatisch und ohne die Marker von speziellen Anzügen (Motion Capture) erfasst werden können. Diese Technologie wird in der Computeranimation eingesetzt, aber auch in der Medizin, der Ergonomieforschung, den Sportwissenschaften und in der Fabrik der Zukunft, wo man die Bewegungen von Industriearbeitern und Robotern im Zusammenspiel erfassen muss. Auf der CeBIT 2013 wurde The Captury dafür mit einem Hauptpreis des Gründerwettbewerbs IKT Innovativ ausgezeichnet.

Weitere Informationen: gvv.mpi-inf.mpg.de/projects/PersonalizedFaceRig/

Saarbrücker Informatiker können Gesichter aus Videoaufnahmen realistisch rekonstruieren

Neueste Beiträge