Technik

Effiziente Suche in Bild- und Videomassendaten


Traditionelle Verfahren extrahieren bei Videodaten nur ein einziges Bild der Sequenz, welches anschließend durch ein bildbasiertes Verfahren verglichen wird. Das Ergebnis hängt stark von der Qualität des ausgewählten Bildes ab, weswegen ein frontal sichtbares Gesicht extrahiert wird, in der Hoffnung, dass darin die meisten Informationen enthalten sind. Im Gegensatz dazu ermöglichen es neuere Ansätze, wie sie auch am Fraunhofer IOSB entwickelt werden [6], alle Bilder einer Sequenz zusammenzufassen, wodurch keine Information mehr verloren geht und damit alle Ansichten erfasst werden. Dadurch können nicht mehr nur Frontalgesichter im Video miteinander verglichen werden, sondern beliebige Ansichten, z.B. auch eine Seitenansicht.
Der Ablauf einer Personensuche in Massendaten besteht im Wesentlichen aus drei Schritten. Zunächst müssen alle Gesichter im Videomaterial gefunden werden. Es erfolgt also eine vollautomatische Analyse des Materials und alle Bereiche, in denen ein Gesicht enthalten ist, werden markiert. Hierzu existieren zuverlässige und schnelle Verfahren. Als Richtwerte gelten typischerweise, dass Gesichter mit einer Drehung von weniger als 45 Grad zur Frontalen und mehr als 30 Pixeln Größe zuverlässig gefunden werden können. Bei stärkerer Drehung bzw. kleinerem Gesicht spielt die Bildqualität eine zunehmend größere Rolle, wobei als Grenze bei der Drehung 90 Grad (Profilansicht) und bei der Auflösung etwa 20 Pixel gelten. Im zweiten Schritt wird für jedes gefundene Gesicht eine Repräsentation berechnet, anhand derer ein Vergleich mit anderen Gesichtern möglich ist. Dazu wird jedes Gesicht normalisiert, also unter anderem einheitlich rotiert und skaliert. Zur Repräsentation des Gesichtes wird eine Menge an lokalen Merkmalen berechnet, welche die Gesichtsstruktur beschreiben. Bei vielen anderen Ansätzen ist dies bereits der letzte Schritt und sie ziehen die berechneten Merkmale für einen Vergleich der Gesichter heran, was durch die Menge an Merkmalen aber einen erheblichen Zeitaufwand bedeutet. Der wesentliche Schritt für eine anschließende schnelle Datenbanksuche ist also der dritte und letzte Schritt, in welchem die Merkmale zusammengefasst und in eine einheitliche Form gebracht werden. Dazu werden alle Merkmale aus einem Bild bzw. bei Videodaten zusätzlich die Merkmale aller Bilder der zusammenhängenden Gesichtssequenz gesammelt und deren gesamte Abweichung zu einem zuvor bestimmten Gesichtsmodell berechnet. Die finale Repräsentation eines Gesichtes beschreibt nur diese Abweichung und hat dadurch eine deutlich geringere Größe, was einen extrem schnellen Vergleich zwischen Gesichtern erlaubt. Durch die geringe Größe der Gesichtsbeschreibung ist es auf einem aktuellen PC problemlos möglich mehrere Hunderttausend derart aufbereitete Gesichter pro Sekunde zu vergleichen. Dies würde beispielsweise bedeuten, dass nach der Aufbereitung innerhalb einer Sekunde mehrere Hundert Stunden TV-Programm nach einem Gesicht durchsucht werden können. Dem liegt die Erfahrung zu Grunde, dass in einem typischen Fernsehprogramm etwa 1000 Gesichtssequenzen pro Stunde enthalten sind, wobei die gleiche Person natürlich mehrfach sichtbar sein kann. Bei Videomassendaten kann dieser Wert erheblich darunter oder auch darüber liegen, da er stark von der Anzahl der gleichzeitig im Bild befindlichen Personen und dem Anteil an Leerszenen abhängt. Eine Größenordnung kann also nicht pauschal angegeben werden.


Abbildung 4:Darstellung von Ursachen für schlechte Bildqualität bei unterschiedlichen Auflösungen. Von links nach rechts: Originalbild,
Kompressionsartefakte, Bewegungsunschärfe, Sensorrauschen, Kombination dieser drei. Von oben nach unten: Gesichtsgröße von 120, 60 und 30 Pixel.


Abbildung 5: Ein Video bietet deutlich mehr Informationen über ein Gesicht, wenn sich die Person während der Aufnahme dreht.

Die Wiedererkennung von Personen auf Basis von Kleidung liefert eine komplementäre Information, die genutzt werden kann, um eine gesichtsbasierte Wiedererkennung zu verbessern. Zusätzlich können kleidungsbasierte Suchverfahren oft auch dann noch angewandt werden, wenn die Daten eine zu niedrige Qualität für gesichtsbasierte Verfahren haben. Analog zur Suche anhand von Gesichtern werden Personenbilder dabei anhand von unterschiedlichen Bildmerkmalen miteinander verglichen. Viele der beschriebenen Eigenschaften lassen sich entsprechend auf die kleidungsbasierte Suche übertragen. Beispielsweise ist es auch hier von Vorteil, Videos mit mehreren Ansichten einer Person für die Suche verwenden zu können anstatt sich auf Einzelbilder mit nur einer Ansicht verlassen zu müssen. Ein wichtiger Unterschied in den Verfahren ist, dass die kleidungsbasierte Suche einen deutlichen Schwerpunkt auf Farbmerkmale setzt und somit – im Gegensatz zur gesichtsbasierten Suche – nur begrenzt auf Grauwertbildern oder -videos einsetzbar ist.
Bei einer hinreichend guten Bildqualität und Auflösung können soft-biometrische Merkmale auch für die Wiederkennung hinzugezogen werden. Merkmale wie Geschlecht, Haarfarbe, kurze oder lange Hose, tragen eines Rucksacks, etc. können automatisch detektiert und mit vorhandenen Bildmerkmalen zu einer verbesserten Repräsentation der Person kombiniert werden. Je nach Sichtbarkeit des individuellen Merkmals (z.B. ist eine Jacke aus weiterer Entfernung besser erkennbar als die Haarfarbe) wird eine entsprechend höhere Auflösung des Bildmaterials benötigt. Zusätzliche Vorteile dieser semantischen, soft-biometrischen Merkmale sind zum einen, dass Suchverfahren ausgehend von einer textuellen Beschreibung gestartet und dann verfeinert werden können (siehe nächster Abschnitt). Zum anderen ist es möglich anhand von Suchergebnissen und detektierten soft-biometrischen Merkmalen automatisch eine textuelle Beschreibung der gesuchten Person zu generieren.