Effiziente Suche in Bild- und Videomassendaten

Von C. Herrmann, D. Manger, A. Schumann und Dr.-Ing. Tobias Schuchert, Abteilung Videoauswertesysteme am Fraunhofer IOSB

Einleitung


In den letzten Jahren hat die zunehmende Vernetzung der Welt sowie immer leistungsfähigere und mobilere Hardware dazu geführt, dass die Menge an Bild- und Videodaten massiv angestiegen ist. Dabei werden Daten sowohl mit mobilen Geräten, z.B. im Urlaub oder von Veranstaltungen, als auch von statischen Systemen, z.B. von Überwachungskameras oder Webcams, gesammelt, verarbeitet, gespeichert und ggfs. auch verteilt. Diese Daten können nützliche Zusatzinformationen zur Aufklärung von Kriminalfällen liefern, um z.B. Abläufe von Anschlägen zu rekonstruieren (vgl. Boston-Attentat) oder Straftäter/Opfer zu identifizieren. Neben den rechtlichen Aspekten bzgl. Nutzung und Auswertung der Daten, stellt die immense Menge an Daten eine große Herausforderung dar, da eine manuelle Durchsicht der Daten nicht mehr möglich ist. Anders als bei strukturierten Daten, wie z.B. Adressen, sind bei Bildern und Videos die wichtigen Informationen nicht direkt verfügbar, sondern müssen aus den Daten extrahiert werden, z.B. ob eine bestimmte Person in einem Video zu sehen ist. Da ein Durchsuchen von Massendaten nach speziellen Mustern aufgrund der reinen Größe nicht effizient möglich ist, müssen die Daten zunächst indexiert werden. Das Prinzip einer Suche in Massendaten ähnelt dann dem einer Suche in einem Buch über einen Index.

Zur Erstellung eines Indexes werden im Fall eines Buchindexes wichtige Stichwörter aus dem Text extrahiert und mit den entsprechenden Seitenzahlen indexiert. Genauso werden bei Bild- und Videodaten wichtige Merkmale, wie z.B. Gesichter gefunden und indexiert. Anschließend kann sehr schnell über den erstellten Index nach relevanten Treffern gesucht werden. Der wesentliche Aspekt in diesen Fällen ist die Erstellung des Indexes. Dieser hat einen signifikanten Einfluss auf die Geschwindigkeit und die Genauigkeit der Suche. Dabei kann man zwischen drei Index-Arten für bestimmte Suchanfragen unterscheiden: 1. Suche anhand von Attributen: Hier werden die Metadaten von Bildern und Videos ausgewertet und es kann z.B. nach geographischen Regionen gefiltert werden. 2. Suche anhand von Bildinhalten: In diesem Fall werden Bilder und Videos nach bekannten Mustern durchsucht, z.B. nach Tattoos oder Logos. 3. Suche nach Personen: Hier kann wiederum zwischen zwei Fällen unterschieden werden. Einerseits kann nach biometrischen Merkmalen, z.B. Gesichtern zur Identifikation und Wiedererkennung von Personen gesucht werden. Andererseits bieten sogenannte softbiometrische Merkmale, z.B. Farbe der Kleidung oder Tragen eines Rucksacks vor allem bei Videos von schlechter Qualität die Möglichkeit, den Weg bestimmter Personen in Videos zu verfolgen. Neben der Bild- und Videoanalyse spielen aber noch weitere Aspekte eine Rolle, um die Datenmengen effizient nutzen zu können. Vor allem spielt die Geschwindigkeit der Analyse eine wesentliche Rolle, da das beste Ergebnis nur wenig nutzt, wenn es erst Wochen später zu Verfügung steht. Daneben ist aber auch eine optimale Interaktion mit dem System wichtig, um zusätzliche Informationen die dem Menschen zu Verfügung stehen zu berücksichtigen, z.B. um die automatisch berechneten Ergebnisse zu verbessern. Schlussendlich muss auch der Sicherheitsaspekt mitbetrachtet werden um Missbrauch der Daten zu verhindern. Dieser Artikel soll einen Überblick über aktuelle Entwicklungen in dem Bereich der Suche in großen Bild- und Videodatenmengen vermitteln.

Attributbasierte Suche



Abbildung 1: Suche nach Bilddaten in einer ausgewählten geographischen Region. Oben: Angabe der geographischen und nicht geographischen Attribute und Darstellung der Ergebnisse in Tabellenform. Unten: Visualisierung der Suchregion und der Flugpfade der Ergebnisse auf der Karte (rechts).

Mit Metadaten werden Informationen wie z.B. Aufnahmezeit und -ort oder Schlagwörter, die mit dem Bild oder Video abgespeichert werden, bezeichnet. Die meisten Systeme bieten Suchen nach diesen Daten an. Hier liegt die Herausforderung vor allem bei sehr großen Datenmengen und bei Aufnahmesystemen, die nicht wie üblich nur einen Satz an Metadaten für ein Video liefern, sondern für jedes Bild in einem Video. Das am Fraunhofer IOSB entwickelte System findet vor allem im Bereich der videobasierten Luftaufklärung Anwendung [1]. In diesem Fall werden für jedes Videobild u.a. die Position und Einstellungen des Sensors (Kamera) sowie des Sensorträgers (Flugzeug) mitgeliefert. Zur Verdeutlichung: Bei einer üblichen Bildrate von 50 Bildern pro Sekunde sind das für 120 Stunden Video mehr als 21 Millionen Datensätze, die analysiert werden müssen. Ein Anwendungsszenario ist die Änderungsdetektion in einer bestimmten Region, z.B. zur Detektion von Schäden an Bahngleisen/Übergängen oder im Fall von Hochwasser zur Detektion von kritischen Änderungen an Deichen. Das System bietet eine optimierte Suche nach geographischen Attributen, so dass in kürzester Zeit alle Bilder/Videos, die eine gewünschte Region zeigen, sortiert ausgegeben und analysiert werden können. Abbildung 1 zeigt beispielhaft die Auswahl einer Region, weitere Suchattribute, sowie die Liste der gefundenen Videos.

Seite: 1234weiter >>