Computer Vision ist möglicherweise nicht so gut wie gedacht

Computer Vision ist möglicherweise nicht so gut wie gedacht
Anonim

Image

Seit Jahren versuchen Wissenschaftler, Computern beizubringen, wie man wie Menschen sieht, und neuere Forschungen scheinen zu zeigen, dass Computer Fortschritte bei der Erkennung visueller Objekte machen. Eine neue MIT-Studie warnt jedoch davor, dass dieser offensichtliche Erfolg irreführend sein könnte, da die verwendeten Tests versehentlich zugunsten von Computern gestapelt werden.

Computer Vision ist wichtig für Anwendungen, die von „intelligenten“ Autos bis hin zu visuellen Prothesen für Blinde reichen. Aktuelle Computermodelle zeigen anscheinend beeindruckende Fortschritte und weisen eine Erfolgsquote von 60 Prozent bei der Klassifizierung natürlicher fotografischer Bildsets auf. Dazu gehört die weit verbreitete Caltech101-Datenbank, mit der Computer-Vision-Algorithmen auf die Vielfalt der in der realen Welt sichtbaren Bilder getestet werden sollen.

James DiCarlo, Neurowissenschaftler am McGovern-Institut für Hirnforschung am MIT, der Doktorand Nicolas Pinto und David Cox vom Rowland Harvard Institute argumentieren jedoch, dass diese Bildersätze Designfehler aufweisen, die es Computern ermöglichen, dort erfolgreich zu sein, wo sie mit mehr Authentizität versagen würden bilder. Zum Beispiel neigen Fotografen dazu, Objekte in einem Rahmen zu zentrieren und bestimmte Ansichten und Kontexte zu bevorzugen. Im Gegensatz dazu trifft das visuelle System auf Objekte in einem viel breiteren Bereich von Bedingungen.

"Die Leichtigkeit, mit der wir visuelle Objekte erkennen, widerspricht der Rechenschwierigkeit dieses Kunststücks", erklärt DiCarlo, leitender Autor der Studie in der Online-Studie PLoS Computational Biology vom 25. Januar. „Die Kernherausforderung ist die Bildvariation. Jedes Objekt kann je nach Position, Entfernung, Ausrichtung, Beleuchtung und Hintergrund unzählige Bilder auf die Netzhaut werfen. “

Das Team deckte die Fehler in aktuellen Tests zur Erkennung von Computerobjekten auf, indem es ein einfaches „Spielzeug“ -Computermodell verwendete, das von den frühesten Schritten im Sehweg des Gehirns inspiriert war. Künstliche Neuronen mit Eigenschaften, die denen des primären visuellen Kortex des Gehirns ähneln, analysieren jeden Punkt im Bild und erfassen Informationen auf niedriger Ebene über die Position und Ausrichtung von Liniengrenzen. Dem Modell fehlt die komplexere Analyse, die in späteren Phasen der visuellen Verarbeitung durchgeführt wird, um Informationen über übergeordnete Merkmale der visuellen Szene wie Formen, Oberflächen oder Räume zwischen Objekten zu extrahieren.

Die Forscher beabsichtigten dieses Modell als Strohmann und erwarteten, dass es als Möglichkeit, eine Grundlinie zu bestimmen, versagen würde. Als sie es auf den Caltech101-Bildern testeten, schnitt das Modell jedoch überraschend gut ab, mit einer Leistung ähnlich oder besser als fünf hochmoderne Objekterkennungssysteme.

Wie kann das sein? „Wir haben den Verdacht, dass die vermeintlich natürlichen Bilder in aktuellen Computer-Vision-Tests das zentrale Problem der Variabilität nicht wirklich aufgreifen und dass unsere Intuitionen darüber, was Objekte schwer oder leicht zu erkennen macht, falsch sind“, erklärt Pinto.

Um diese Idee zu testen, entwickelten die Autoren einen sorgfältiger kontrollierten Test. Mit nur zwei Kategorien - Flugzeuge und Autos - führten sie Variationen in Position, Größe und Ausrichtung ein, die den Variationsbereich in der realen Welt besser widerspiegeln.

"Mit nur zwei Arten von Objekten zu unterscheiden, hätte dieser Test für das" Spielzeug "-Computermodell einfacher sein sollen, aber er erwies sich als schwieriger", sagt Cox. Fazit des Teams: „Unser Modell hat sich in der Caltech101-Bilderserie bewährt, nicht weil es ein gutes Modell ist, sondern weil die natürlichen Bilder die reale Variabilität nicht angemessen erfassen.“

Infolgedessen plädieren die Forscher für eine Überarbeitung der aktuellen Standards und Bilder, die von der Computer-Vision-Community verwendet werden, um Modelle zu vergleichen und Fortschritte zu messen. Bevor sich Computer der Leistung des menschlichen Gehirns nähern können, müssen Wissenschaftler besser verstehen, warum die Aufgabe der Objekterkennung so schwierig und die Fähigkeiten des Gehirns so beeindruckend sind.

Quelle: Massachusetts Institute of Technology