Diplomarbeit am IKT

Problemstellungen

Vergleichsmöglichkeiten

Ein erstes Problem stellt sich direkt bei der Vergleichsmöglichkeit: Womit soll die Maschine das dargebotene Bild oder die Szene vergleichen und welchen Masstab soll sie dabei ansetzen? Eine Lösung für das erste Teilproblem wäre eine unendlich grosse Bild- oder Szenendatenbank, die nach Objekten klassifiziert ist und bei der jedes Bild oder jede Szene auf alle möglichen Vergleichsparameter hin schon eine objektive" Beurteilung erfahren hat.

Dann treten aber schon die nächsten Probleme auf: Wie findet die Maschine aus dieser unendlich grossen Zahl von Vergleichsmöglichkeiten das richtige Bild oder die richtige Szene und welche Parameter sind in diesem Fall für die Bewertung relevant?

Ein einfaches Beispiel soll die riesige Zahl von Möglichkeiten verdeutlichen, die es für eine Bewertung abzudecken gilt:

Stellen wir uns ein Standbild vor, auf dem links oben ein kleiner Text zu sehen ist, in der Mitte das Gesicht einer Frau und als Hintergrund eine unscharfe Wand und eine zum Teil verdeckte Pflanze (Bild 4.1).

Durch Tests an verschiedenen Versuchspersonen hat sich herausgestellt, dass bei der Betrachtung nur das Erkennen des Gesichts, dort vor allem der Augen, wichtig ist. Der Hintergrund ist völlig nebensächlich (da er sowieso unscharf ist) und auch auf die Schrift wird nicht geachtet (ein Logo im Fernsehbild ist unwichtig, ausserdem ist es unabhängig vom Bildinhalt).

Wird das Bild derart verändert, dass Logo und Hintergrund verfälscht sind, im schlimmsten Fall sogar ganz unkenntlich gemacht werden, das Gesicht aber immer noch gut zu erkennen ist, wird das Bild als viel besser bewertet als wenn die Schrift scharf zu erkennen ist, das Gesicht und die Augen jedoch stark verändert wurden.

Eine entsprechende Maschine müsste demnach erstens erkennen, dass das wichtige Objekt für die Bewertung dieses Bildes das Gesicht ist, zweitens dort die Qualität der Augen besonders wichtig sind und drittens Hintergrund und Logo zu vernachlässigen sind.

Für die Verwirklichung dieser Diplomarbeit hat man sich angesichts dieser Tatsachen auf die Lösung eines einfacheren Problems beschränkt und versucht, die Bilder nicht absolut zu bewerten, sondern relativ zu der Qualität eines Referenzbildes. Diese Vorgehensweise entspricht momentan auch mehr der Forderung aus stechnischer Sicht, dass eine solche Bewertung subjektive Tests überflüssig machen, aber nicht die Beurteilung des Menschen vollständig ersetzen soll.

Wichtige Bildteile

Somit kommen wir zum nächsten Problem: Wie erkennt das künstliche Beurteilungsverfahren, welche Regionen, Objekte und Strukturen im Bild wichtig sind und welche nicht? Es gibt diverse Möglichkeiten, wie solch ein Verfahren ablaufen könnte.

In jedem Fall wird sich das System aber zuerst auf ein Modell abstützen müssen, das den menschlichen visuellen Wahrnehmungsvorgang von der optischen Abbildung des Bildes im Auge bis zur schlussendlich entstehenden Vorstellung im Gehirn im Idealfall exakt nachbildet. Da dieser Vorgang zum jetzigen Zeitpunkt jedoch bei weitem noch nicht vollständig erforscht ist und zu grossen Teilen noch auf Theorien besteht, die heftig diskutiert werden, müssen wir uns mit stark vereinfachten Modellen begnügen, die aber dennoch zu guten Ergebnissen führen können.

Im Modell, das diese Arbeit verwendet werden die wichtigsten Abläufe der menschlichen visuellen Wahrnehmung berücksichtigt (Kontrastsensitivität, Orientierungssensitivität, nichtlineare Amlitudenstufen bei der Helligkeitsverteilung, siehe Kapitel 5 und 6 und [39])

Orientierung

Ein weiteres Problem ist die Orientierung des Bildes. Wird es z. B. um 90 Grad gedreht, erkennt dies der Mensch sofort und dreht es virtuell wieder zurück (Bild 4.2). Die Maschine müsste also auch in gedrehten Bildern nach bekannten Objekten suchen und diese zuerst in die normale" Position zurckdrehen, bevor die Bewertung stattfindet. Denn es ist zum Beispiel bekannt, dass horizontale und vertikale Strukturen besser wahrgenommen werden als diagonale. Somit würde eine Bildbewertung ohne Positionskorrektur unter Umständen einen falschen Wert liefern, da Drehungen der Bilder um beliebige Winkel denkbar sind. Allerdings wird bei dieser Arbeit davon ausgegangen, dass die Bilder immer so positioniert sind, dass oben" wirklich oben ist.

Linearisierung

Da bis auf die optische Abbildung alle anderen Abläufe beim Sehen nichtlinearer Art sind, die Modelle aber nicht zu kompliziert sein dürfen, um erstens mathematisch vernünftig beschreibbar zu bleiben und zweitens den Rechenaufwand nicht über die heutigen Leistungsgrenzen hinausgehen zu lassen, müssen Linearisierungen in den Arbeitsbereichen vorgenommen werden. Die Aufgabe besteht nun darin, diese derart vorzunehmen, dass die dabei entstehenden Fehler sehr klein bleiben oder unwichtig und somit vernachlässigbar sind. Auch in unserem Modell wurden solche Linearisierungen verwendet.

Verzerrungen

Sehr aufwendig ist auch eine Korrekur anderer Bildparameter, da für einen aussagekräftigen Vergleich unter anderem die Übereinstimmung der entsprechenden Pixel ässerst genau stimmen muss. Wenn ein Codec beim Durchlaufen eines Bildes beispielsweise Verschiebungen, Strekkungen, Scherungen, Vergrösserungen oder Verkleinerungen etc. vornimmt, braucht es vor der eigentlichen Beurteilung viel Rechenleistung und eine geeignete Synchronisation, um diese Veränderungen wieder rückgängig zu machen. Ebenso müssen Pegel und DC-Level bei beiden Bildern übereinstimmen, Sequenzen erfordern zusätzlich eine zeitliche Synchronisation. In der in Kapitel 7 dargestellten Implementation werden alle diese Optionen nicht berücksichtigt, da dies sehr rechenintensiv wäre.

Bildkriterien

Die Betrachtungen über die zu beachtenden und zu bewertenden Bildparameter lassen sich beliebig verfeinern. Je nach Komposition, Beleuchtung, Hintergrund und Kontrast des Bildes, nach Stimmung und Vergleichsmöglichkeiten des Betrachters etc. lassen sich beliebig viele Kriterien erstellen, nach denen das Bild bewertet werden kann. Entsprechend aufwendiger wird das Ganze, wenn bei Sequenzen zusätzlich zeitliche Abläufe mit einbezogen werden müssen (unsere Bewertungen beschränken sich jedoch auf Standbilder).

Vorgehen zum Finden eines Algorithmus

Um einen Algorithmus zu entwerfen, der möglichst mit subjektiven Tests übereinstimmende Ergebnisse liefert, wurde folgende Vorgehensweise angewandt:

1. Untersuchungen des menschliche visuelle Wahrnehmungssystem (HVS);

Umsetzung der gewonnen Erkenntnisse in ein Modell.

2. Umsetzung des Modells in einen Algorithmus, evtl. mit Vereinfachungen.

3. Auswahl von Testbildern und Durchführung subjektiver Tests;

Abgleich des Algorithmus auf die Ergebnisse

4. Auswahl weiterer Testbilder;

1. Durchführung einer Beurteilung durch den Algorithmus

2. Subjektiver Test

3. Vergleich

5. Ergebniss auswerten

6. Verbesserungen vornehmen

Eine kurze Einführung in das menschliche Auge- / Gehirnsystem findet sich direkt anschliessend in Kapitel 5. Danach werden einige wichtige objektive Messverfahren vorgestellt, die bisher implementiert wurden und auch erfolgreich für verschiedene Zwecke zum Einsatz kamen und kommen (Kapitel 6). In Kapitel 7 wird das ausgewählte Modell vorgestellt und die Umsetzung in einen C++-Algorithmus erklärt. Danach wird der Algorithmus mit einigen Testbildern, die von verschiedenen Leuten beurteilt wurden, abgeglichen und normiert auf deren Beurteilung (Kapitel 8). Das neunte Kapitel befasst sich mit den subjektiven Tests, die in grösserem Stil über das Internet durchgeführt wurden und zeigt auch die Ergebnisse, die der Algorithmus für die dabei verwendeten Testbilder geliefert hat. Die Auswertung der Ergebnisse ist in Kapitel 10 zusammengefasst. In Kapitel 11 kommt der Algorithmus zum ersten Mal in einem Praxistest vor.

Qualitäsbewertung von Bildern

Einleitung