Biometrische Systeme vor Täuschungen schützen

Beautiful woman and eye with digital biometric scanning and data analysis. Face detection and scanner. Concept of face id and artificial intelligence
Bild: Bild: ©ImageFlow/stock.adobe.com

Die IT-Sicherheitsorganisation FIDO-Allianz (Fast IDentity Online) definiert in ihren Biometric Requirements drei verschiedene Angriffsarten (Level A, B und C), die nach Zeitaufwand, der notwendigen Expertise und des Zugangs zur Quelle der biometrischen Daten geordnet sind (siehe Tabelle).

Um ein System gegen solche Angriffe zu schützen, gibt es verschiedene Ansätze. Eine Möglichkeit ist es, mit weiteren Sensoren zusätzliche Informationen zu erfassen, wie etwa Tiefeninformationen. Ein Beispiel hierfür ist das in Apples iPhones verbaute FaceID, das einen Lidar-Sensor für die dreidimensionale Abtastung des Nutzergesichts verwendet. Weitere Möglichkeiten sind Infrarot-, Wärmebild-, Lichtfeld-, Multispektral- und Stereokameras. Der Einsatz von zusätzlichen Sensoren ist jedoch oft mit hohen Kosten für Entwicklung und Material verbunden und nicht in allen Designs realisierbar. Zudem sind Verbesserungen für bestehende Systeme selten eine Optionen. Zusätzlich bedroht der Fortschritt im 3D-Druck zunehmend auch die Sicherheit von Systemen, die mit Tiefensensoren oder 3D-Kameras ausgestattet sind.

Es gibt jedoch eine Reihe von Möglichkeiten, rein kamerabasierte Gesichtserkennungssysteme robuster gegen Angriffe aller drei FIDO-Arten zu machen. Dabei wird zwischen statischer und dynamischer Analyse unterschieden. Statische Verfahren werten dabei nur ein Bild aus, dynamische Verfahren verarbeiten Informationen aus mehreren Bildern gleichzeitig.

Die statische Analyse

Statische Methoden basieren darauf, dass sie gefälschte Gesichtsdaten – etwa Masken, Bildschirme oder Papierdruck – nutzen, die sich in ihrer Qualität und ihrem Aussehen von echten Gesichtern unterscheiden. Dabei geht es um Unterschiede in der Textur, aber auch bei der Reflexion und Absorption, sowie der Streuung und Brechung des Lichts durch das betrachtete Material. Ein Nachteil ist die starke Abhängigkeit von der Qualität der Aufnahme, die vor allem durch die Kameraauflösung und die Lichtbedingungen beeinflusst wird.

Durch die sich stetig verbessernde Verfügbarkeit von Beispieldaten für diese Aufgabe und maschinellem Lernen sind die Resultate dieser Verfahren mittlerweile sehr vielversprechend. Eine Einschränkung ist, dass sie nur bei bekannten Angriffsarten unter bekannten Umständen wirklich gut funktionieren.

Da ein Modell nur mit Bildern bekannter Täuschungsversuche trainiert wird, ist ein Schutz gegen alle drei Angriffsebenen zwar möglich, neue Angriffsmethoden könnten diese jedoch wieder aushebeln. Ein entsprechendes System sollte daher dauerhafte Updatefähigkeit bieten.

Dynamische Analyse

Dynamische Methoden verwenden Informationen aus mehreren Frames der Kamera. Sie basieren also auf Bewegungen, die auf eine echte Person schließen lassen. Die Methode lässt sich weiter unterteilen in passive Methoden, die auf natürliche Bewegungen der Person reagieren, und aktive Methoden, die eine bestimmte Aktion des Nutzers fordern. Für die Nutzerfreundlichkeit eines Zugangskontroll- oder besonders eines Zeiterfassungssystems sollte man sich auf Methoden beschränken, die keine bis nur minimale aktive Kooperation des Nutzers erfordern.

Ein Ansatz, der sich auf die Erkennung von Level-B- und besonders auf Level-A-Angriffen fokussiert, nutzt Optical Flow. Diese Methode untersucht, ob die sichtbare Bewegung die Pixel der Rotation einer ebenen Fläche um sich selbst entsprechen, wie es bei einem Foto der Fall wäre. Andere auf Optical Flow basierende Methoden suchen eine Korrelation zwischen der Bewegung des Gesichts und des unmittelbaren Hintergrunds. Synchrone Bewegung von Gesicht und Hintergrund, wie bei Bewegungen von handgehaltenen Fotos oder Mobilgeräten, würden so als Angriff, und die rein unkorrelierte Bewegung als echte Person klassifiziert werden. Diese Methoden erfordern ein gewisses Mindestmaß an Nutzerbewegung, um effektiv zu sein.

Ein weiterer Ansatz setzt auf den Fokus der Kamera. Durch leichtes Verschieben der Fokusdistanz am erkannten Gesicht vorbei, kann durch Änderung der Pixelwerte zum fokussierten Bild ein Tiefenprofil erstellt werden. Die Genauigkeit hängt dabei von der Größe des Fokusbereichs der Kamera, und damit von dessen Blende, Brennweite und Sensorgröße ab. Bei dieser Methode wird zudem davon ausgegangen, dass zwischen den beiden Bildern keine wesentliche Bewegung in der Szene stattgefunden hat.

Diese Methoden wären jedoch nur bedingt oder überhaupt nicht in der Lage, Level-C-Angriffe mittels Masken erfolgreich abzuwehren. Hierfür existieren mittlerweile Methoden, die den menschlichen Herzschlag über die leichten Farbänderungen in kurzen Bildabfolgen einer RGB-Kamera ermitteln können. Die Nachteile dieser Methode sind der negative Einfluss von Bewegung, sowie der etwa fünfsekündige Betrachtungszeitraum den das System mindestens benötigt.

Presentation Attack Detection

Die vorgestellten Methoden haben alle verschiedene Vor- und Nachteile. Es ist daher naheliegend verschiedene Ansätze dynamischer sowie statischer Analyse parallel einzusetzen, um in allen Situationen hinreichende Sicherheit und Nutzbarkeit bieten zu können. Da die Gesichtserkennung und das Presentation Attack Detection-System in der Regel parallel laufen können, ist es üblich die Ergebnisse beider Systeme in der Entscheidung über die Echtheit des Authentifizierungsversuchs zu vereinigen, was die Genauigkeit weiter verbessern kann. Dass in der Praxis ein rein kamerabasiertes System ausreichend gegen Angriffe gesichert werden kann, wurde von Google demonstriert: Das ‚Face Unlock‘ des Google Pixel 8 (Pro) genügt der höchsten biometrischen Sicherheitsklasse in Android und Nutzer können sich damit in Banking Apps authentifizieren.

Seiten: 1 2