GAN - Ako merať výkon GAN?

Foto: Dawid Małecki

V GAN objektívna funkcia generátora a diskriminátora zvyčajne meria, ako dobre sa im darí vo vzťahu k súperovi. Napríklad meriame, ako dobre generátor klame diskriminačný systém. Nie je to dobrá metrika pri meraní kvality obrazu alebo jeho rozmanitosti. V rámci série GAN sa zaoberáme počiatočným skóre a počiatočnou vzdialenosťou Frécheta, ako porovnávať výsledky z rôznych modelov GAN.

Počiatočné skóre (IS)

IS používa dve kritériá na meranie výkonnosti GAN:

  • Kvalita generovaných obrázkov a
  • ich rozmanitosť.

Entropia sa dá považovať za náhodnosť. Ak je hodnota náhodnej premennej x vysoko predvídateľná, má nízku entropiu. Naopak, ak je to veľmi nepredvídateľné, entropia je vysoká. Napríklad na nasledujúcom obrázku máme dve rozdelenia pravdepodobnosti p (x). p2 má vyššiu entropiu ako p1, pretože p2 má rovnomernejšie rozdelenie, a preto menej predvídateľné, čo je x.

V GAN chceme, aby bola podmienená pravdepodobnosť P (y | x) vysoko predvídateľná (nízka entropia). t. j. vzhľadom na obrázok, mali by sme ľahko poznať typ objektu. Preto používame počiatočnú sieť na klasifikáciu vygenerovaných obrázkov a predpovedanie P (y | x) - kde y je označenie a x sú vygenerované údaje. To odráža kvalitu obrázkov. Ďalej musíme zmerať rozmanitosť obrázkov.

P (y) je marginálna pravdepodobnosť vypočítaná ako:

Ak sú generované obrázky rôzne, distribúcia údajov pre y by mala byť rovnomerná (vysoká entropia).

Tento koncept predstavuje tento obrázok.

Na kombináciu týchto dvoch kritérií vypočítame ich KL-divergenciu a pomocou nižšie uvedenej rovnice vypočítame IS.

Jedným z nedostatkov pre IS je to, že môže skresľovať výkon, ak generuje iba jeden obrázok na triedu. p (y) bude stále jednotný, aj keď rozmanitosť je nízka.

Počiatočná vzdialenosť Frécheta (FID)

V FID používame vstupnú sieť na extrahovanie prvkov z medzivrstvy. Potom modelováme distribúciu údajov pre tieto vlastnosti pomocou viacrozmernej gaussovskej distribúcie so strednou µ a kovarianciou Σ. FID medzi skutočnými obrázkami x a vygenerovanými obrázkami g sa vypočíta ako:

kde Tr zhŕňa všetky diagonálne prvky.

Nižšie hodnoty FID znamenajú lepšiu kvalitu obrazu a rozmanitosť.

FID je citlivý na kolaps režimu. Ako je uvedené nižšie, vzdialenosť sa zvyšuje so simulovanými režimami chýbajúcich údajov.

Zdroj Nižšie skóre FID označuje lepší model.

FID je odolnejší voči šumu ako IS. Ak model generuje iba jeden obrázok na triedu, vzdialenosť bude vysoká. FID je teda lepším meradlom rozmanitosti obrázkov. FID má dosť veľkú predpojatosť, ale nízku variabilitu. Pri výpočte FID medzi súborom údajov o školení a súborom údajov o testovaní by sme mali očakávať, že FID bude nula, pretože obidva sú skutočné obrazy. Vykonanie testu s rôznymi šaržami výcvikovej vzorky však nemá nulovú FID.

zdroj

FID aj IS sú tiež založené na extrahovaní prvkov (prítomnosť alebo neprítomnosť prvkov). Bude mať generátor rovnaké skóre, ak sa nezachová priestorový vzťah?

Presnosť, odvolanie a skóre F1

Ak sú generované obrázky v priemere podobné skutočným obrázkom, presnosť je vysoká. Vysoké vyvolanie znamená, že generátor môže vygenerovať akúkoľvek vzorku nachádzajúcu sa v súbore údajov o školení. Skóre F1 je harmonický priemer presnosti a spätného vyvolania.

Vo výskumnom dokumente spoločnosti Google Brain „Sú GANs stvorení rovnocenní“ sa vytvára experiment s hračkami so súborom trojuholníkov na meranie presnosti a vyvolania rôznych modelov GAN.

zdroj

Tento súbor údajov o hračkách môže merať výkonnosť rôznych modelov GAN. Môžeme ho použiť na meranie výhod rôznych nákladových funkcií. Napríklad bude nová funkcia dobrá pri výrobe vysokokvalitného trojuholníka s dobrým pokrytím?

referencie

Vylepšené techniky pre výcvik GAN

Sú GAN stvorené rovnaké? Štúdia vo veľkom meradle

GAN vyškolené aktualizačným pravidlom v dvoch časových mierkach konvertujú na lokálnu rovnováhu Nash