Technik

Effiziente Suche in Bild- und Videomassendaten

Inhaltsbasierte Bildsuche


Im Gegensatz zur Suche über Metadaten versucht die inhaltsbasierte Bildsuche – ausgehend von einem Anfragebild – die Details in den Bildern selbst zu analysieren mit dem Ziel, weitere Bilder mit ähnlichen Objekten wiederzufinden. Dabei geht es darum, die Inhalte einer Bild- oder Videodatenbank so zu analysieren und wichtige Merkmale möglichst generisch zu indexieren, dass später beliebige Inhalte, z.B. Tattoos oder Logos schnell gefunden werden können. Die ersten, mittlerweile in die Jahre gekommenen Verfahren arbeiteten dabei mit sog. Hashwerten (digitalen Fingerabdrücken) der kompletten Bilddateien. Ähnlich zur Vorgehensweise einfacher Virenscanner wird dabei aus jeder Bilddatei ein Hashwert berechnet. Zwei exakt identische Bilder werden dabei auf den identischen Hashwert abgebildet, sodass Duplikate bzw. bekannte Bilder durch ihre zugehörigen Hashwerte sehr schnell wiedergefunden werden können. Zur Identifikation von kinderpornographischen Inhalten wurden diese Verfahren einige Jahre erfolgreich eingesetzt.


Abbildung 2: Ergebnis einer Suche in Urlaubsbildern mit einem Anfragebild (unten links).

Allerdings ändert sich auch bei jeder noch so kleinen, für den Betrachter möglicherweise sogar unsichtbaren Änderung des Bildes sein Hashwert gänzlich. Es existieren daher mittlerweile Programme, die mit einem Mausklick die eigene Bildersammlung dahingehend minimal modifizieren, dass diese auf Dateihashwerten basierenden Verfahren wirkungslos sind. Um dies zu verhindern gehen aktuelle Verfahren einen Schritt weiter und errechnen einen robusteren Hashwert aus den Bildern. Das von Microsoft mitentwickelte PhotoDNA [2] etwa wandelt dazu ein Bild in ein Schwarz-Weiß-Bild einheitlicher Größe um, unterteilt es in ein Raster kleinerer Bildausschnitte und erfasst die groben Details der einzelnen Ausschnitte in einem gemeinsamen Fingerabdruck. Dadurch ist die Suche robust gegenüber kleineren Änderungen des Ausgangsbildes und gleichzeitig noch effizient genug um in Echtzeit sämtliche in Twitter, Facebook und über 50 weiteren Onlinediensten hochgeladenen Bilder auf bekannte kinderpornographische Inhalte zu analysieren. Noch einen Schritt weiter im Kompromiss zwischen Robustheit und Verarbeitungsgeschwindigkeit bzw. Datenbankgröße gehen Verfahren, die mit lokalen Merkmalen arbeiten. Hier wird aus einem Bild nicht mehr ein globaler Hashwert berechnet, sondern es wird aus den lokalen Bildbereichen eine Menge vieler kleiner Fingerabdrücke erstellt. Damit lassen sich auch gleiche oder ähnliche Objekte in Bildern finden, selbst wenn sie z.B. vor einem unterschiedlichen Hintergrund aufgenommen worden sind. Am Fraunhofer IOSB werden derartige Suchverfahren für verschiedene Anwendungen untersucht und parametrisiert. Im von INTERPOL geleiteten EU-Projekt FASTID (FAST and efficient international disaster victim IDentification) etwa wurde u.a. die bildinhaltsbasierte Suche zur Unterstützung der Leichenidentifikation nach Katastrophen untersucht [3]. Ein spezielles Modul zum bildinhaltsbasierten Vergleich von Tätowierungen wurde dabei mit einer Datenbank von über 300.000 Bildern mit Tätowierungen erfolgreich getestet [4]. Weil die grundlegenden Verfahren auch für viele andere Anwendungen von Interesse sind, ist eine Demonstrationssoftware entstanden, die kostenlos erhältlich ist [5] und offline mit eigenem Bildmaterial getestet werden kann. Abbildung 2 zeigt eine Suche mit einem Anfragebild (links), die Urlaubsbilder mit ähnlichen Objekten (Golden Gate Bridge) zurückliefert. Abbildung 3 zeigt dagegen die Ergebnisse der sog. Batch-Matching Funktion, bei der zwei Bilddatenbanken auf gemeinsame Objekte oder Szenen untersucht werden können. Aus zwei Urlaubsbildersammlungen unterschiedlicher Jahre wurde so die abgebildete Szene in beiden Datenbanken gefunden obwohl sich Belichtung, Wetter, Kameramodell und Aufnahmezeitpunkt erheblich unterscheiden. Auch im polizeilichen Umfeld hat die inhaltsbasierte Suche viele Anwendungsfelder. So wurde das Verfahren u.a. beim LKA Niedersachsen mit Bildern von realen Fällen im Bereich Kinderpornografie getestet. Auf aktuellen leistungsstarken PCs lassen sich damit Bilddatenbanken von einigen Millionen Bildern aufbauen, die innerhalb weniger Sekunden nach einem Anfragebild durchsucht werden können. Die größte Herausforderung liegt derzeit noch bei Bildern, die aus zu unterschiedlichen Aufnahmewinkeln aufgenommen wurden und daher im direkten Vergleich keine oder nur wenige gemeinsame lokale Merkmale aufweisen.

Personensuche


Bei der Suche nach Personen in Bildern oder Videodaten ist das Gesicht das wichtigste biometrische Merkmal. Dieses ist hinreichend individuell für jede Person, sodass auch der Mensch es im Alltag nutzt, um sein Gegenüber zu erkennen. Das Gesicht einer Person ist im Kontext der Auswertung von Massendaten üblicherweise den geringsten Änderungen unterworfen, wodurch es sich insbesondere dazu eignet Personen in Bildmaterial von verschiedenen Orten oder zu verschiedenen Zeiten zu finden. Während die äußere Erscheinung, welche hauptsächlich durch die Kleidung bestimmt wird, oft täglich oder witterungsbedingt häufiger wechselt, sind Änderungen am Gesicht seltener oder finden langsamer statt. Typische Veränderungen, die das Gesicht betreffen, sind Bartwuchs oder Brillen. Während dezente Brillen kaum Probleme für einen automatischen Gesichtsvergleich darstellen, erschweren dickrandige Brillen oder Sonnenbrillen dies bzw. können es je nach Bedeckungsgrad des Gesichts auch unmöglich machen.Bild- und Videodaten unterscheiden sich für die Nutzung zur gesichtsbasierten Personensuche in zwei Punkten. Während Bilddaten üblicherweise eine bessere Bildqualität aufweisen, also höher aufgelöst sind und weniger Bewegungsunschärfe besitzen, bieten Videodaten mehr Bilder der gleichen Person in aufeinanderfolgenden Einzelbildern und ggfs. aus unterschiedlichen Perspektiven.
Als grober Richtwert in Bezug auf die Verwendbarkeit von Daten bei ansonsten guter Bildqualität gilt eine untere Grenze der Gesichtsgröße von etwa 30 Pixeln, um eine gute Wiedererkennungsleistung zu ermöglichen. Dieser Fall liegt meist nur bei Bilddaten vor, die mit einer hochwertigen Digitalkamera aufgenommen wurden. Während bei Bilddaten die Auflösung des Bildes in den meisten Fällen einen guten Hinweis auf die Auswertbarkeit liefert, spielen bei Videodaten noch weitere Effekte, welche die Bildqualität schmälern, eine wichtige Rolle. Beispielsweise wirken sich Kompressionsartefakte, Sensorrauschen und Bewegungsunschärfe mit abnehmender Auflösung stärker aus. Eine zufriedenstellende Qualität wird daher teilweise erst im Bereich von 50 bis 100 Pixel Gesichtsgröße erreicht, wie in Abbildung 4 illustriert. Daher ist es nötig, die zusätzlichen Informationen, die Videomaterial bietet sinnvoll zu nutzen. Dies kann insbesondere dann von Vorteil sein, wenn die abgebildete Person ihren Kopf dreht und somit mehrere Ansichten des Gesichtes enthalten sind wie Abbildung 5 veranschaulicht.


Abbildung 3: Ergebnisse der Batch-Matching Suchfunktion. Gefunden wurde eine Szene, die in beiden Datenbanken enthalten ist.