Bodové hodnotenie pomocou strojového učenia

Kreditné skóre je číselný výraz, ktorý meria úverovú bonitu ľudí. Bankovníctvo ho zvyčajne používa ako metódu na podporu rozhodovania o úverových aplikáciách. Na tomto blogu budem hovoriť o tom, ako vyvinúť štandardnú hodnotiacu kartu s Pythonom (Pandas, Sklearn), ktorý je najobľúbenejšou a najjednoduchšou formou na úverové hodnotenie, na meranie úverovej bonity zákazníkov.

Motivácia projektu

V súčasnosti je úverová bonita pre všetkých veľmi dôležitá, pretože sa považuje za ukazovateľ spoľahlivosti jednotlivca. V rôznych situáciách musia poskytovatelia služieb najprv vyhodnotiť úverovú históriu zákazníkov a potom rozhodnúť, či budú službu poskytovať alebo nie. Je však časovo náročné kontrolovať celé osobné portfóliá a generovať kreditnú správu manuálne. Úverové skóre sa preto vyvíja a používa na tento účel, pretože je časovo úsporné a ľahko zrozumiteľné.

Proces generovania kreditného skóre sa nazýva kreditné bodovanie. Je široko používaný v mnohých odvetviach, najmä v bankovníctve. Banky ho obvykle používajú na to, aby určili, kto by mal získať úver, koľko úveru by mal dostať a akú operačnú stratégiu je možné prijať na zníženie kreditného rizika. Všeobecne obsahuje dve hlavné časti:

  • Budovanie štatistického modelu
  • Použitie štatistického modelu na priradenie skóre kreditnej aplikácii alebo existujúcemu úverovému účtu

Tu predstavím najpopulárnejšiu metódu kreditného hodnotenia nazývanú scorecard. Existujú dva hlavné dôvody, prečo je karta najbežnejšou formou hodnotenia kreditov. Po prvé, je ľahké interpretovať ľudí, ktorí nemajú súvisiace zázemie a skúsenosti, ako sú klienti. Po druhé, proces vývoja výsledkovej karty je štandardný a všeobecne chápaný, čo znamená, že spoločnosti naň nemusia minúť veľa peňazí. Vzorka skóre je uvedená nižšie. Budem hovoriť o tom, ako ju použiť neskôr.

Obrázok 1 Príklad Scorecard

Prieskum údajov a vývoj funkcií

Teraz uvediem niekoľko podrobností o tom, ako vypracovať hodnotiacu kartu. Súbor údajov, ktorý som tu použil, pochádza zo súťaže Kaggle. Podrobné informácie sú uvedené na obrázku 2. Prvá premenná je cieľová premenná, ktorá je binárnou kategorickou premennou. A ostatné premenné sú vlastnosti.

Obrázok 2 - Slovník údajov

Po získaní nahliadnutia do množiny údajov naň začnem aplikovať niektoré metódy inžinierstva funkcií. Najprv skontrolujem každú funkciu, ak obsahuje chýbajúce hodnoty, a potom chýbajúce hodnoty napíšem strednou hodnotou.

Ďalej urobím odľahlú liečbu. Metódy používané pre odľahlé hodnoty vo všeobecnosti závisia od typu odľahlých hodnôt. Napríklad, ak je odľahlá hodnota spôsobená mechanickou chybou alebo problémami počas merania, možno s ňou zaobchádzať ako s chýbajúcimi údajmi. V tomto súbore údajov sú niektoré mimoriadne veľké hodnoty, ale všetky sú to rozumné hodnoty. Preto na ich riešenie používam horné a dolné kódovanie. Na obrázku 3 je vidieť, že po použití horného kódovania je distribúcia prvku normálnejšia.

Obrázok 3: Mimoriadne ošetrenie s najvyšším kódovaním

Podľa vzorovej výsledkovej karty znázornenej na obrázku 1 je zrejmé, že každý znak by mal byť zoskupený do rôznych atribútov (alebo skupín). Existuje niekoľko dôvodov na zoskupenie funkcií.

  • Získajte prehľad o atribútoch funkcie a výkonu vo vzťahoch.
  • Použite lineárne modely na nelineárne závislosti.
  • Porozumieť hlbšie chovaniu predpovedateľov rizika, čo môže pomôcť pri vývoji lepších stratégií správy portfólia.

Binning je správna metóda použitá na tento účel. Po spracovaní priradím každú hodnotu k atribútu, v ktorom by mala byť, čo tiež znamená, že všetky číselné hodnoty sa prevedú na kategorické. Tu je príklad výsledku binningu.

Obrázok 4 Funkcia zoskupenia „Age“ with Binning

Po zoskupení všetkých funkcií sa dokončí konštrukcia prvkov. Ďalším krokom je výpočet váhy dôkazov pre každý atribút a informačná hodnota pre každú charakteristiku (alebo znak). Ako už bolo spomenuté vyššie, pomocou binningu som previedol všetku číselnú hodnotu na kategorickú. Nemôžeme však do týchto modelov zaradiť model, takže týmto skupinám musíme priradiť číselné hodnoty. Účelom Weight of Evidence (WoE) je presne priradiť každej skupine kategorických premenných jedinečnú hodnotu. Informačná hodnota (IV) meria prediktívnu silu charakteristiky, ktorá sa používa na výber prvkov. Vzorec WoE a IV je uvedený nižšie. Výraz „dobrý“ tu znamená, že zákazník nebude mať závažnú kriminalitu alebo cieľová premenná sa rovná 0, a „zlý“ znamená, že zákazník bude mať závažnú kriminalitu alebo cieľová premenná sa rovná 1.

Zvyčajne sa pripravujú správy o analýze charakteristík na získanie WoE a IV. Tu definujem funkciu v Pythone na automatické generovanie reportov. Ako príklad možno uviesť správu o analýze charakteristík pre „Vek“ na obrázku 5.

Obrázok 5 - Správa o analýze charakteristík pre vek

Potom urobím stĺpcový graf na porovnanie IV všetkých funkcií. V stĺpcovom diagrame vidíte posledné dve funkcie „NumberOfOpenCreditLinesAndLoans“ a „NumberRealEstateLoansOrLines“ majú dosť nízku hodnotu IV, takže tu vyberiem pre osadenie modelu ďalších osem funkcií.

Obrázok 6 - Prediktívna sila každej charakteristiky

Zostavenie modelu a výpočet bodových bodov

Po výbere funkcie nahradím atribúty zodpovedajúcim WoE. Doteraz dostávam správny súbor údajov pre školenie modelu. Model používaný na vývoj scorecardu je logistická regresia, ktorá je populárnym modelom pre binárnu klasifikáciu. Na vyladenie parametrov používam krížové overovanie a mriežkové vyhľadávanie. Potom pomocou testovacích údajov skontrolujem presnosť predikcie modelu. Keďže Kaggle nedá hodnoty pre cieľovú premennú, musím svoj výsledok odoslať online, aby som získal presnosť. Aby som ukázal účinok spracovania údajov, trénujem model so surovými a spracovanými údajmi. Na základe výsledku, ktorý poskytol Kaggle, sa presnosť spracovania zvýšila zo 0,693956 na 0,800946 po spracovaní údajov.

Posledným krokom je výpočet bodovacieho bodu pre každý atribút a vytvorenie výsledného výsledkového listu. Skóre pre každý atribút možno vypočítať pomocou vzorca:

Skóre = (ß × WoE + α / n) × faktor + ofset / n

Kde:
β - logistický regresný koeficient pre charakteristiky, ktoré obsahujú daný atribút
α - logický regresný odber
WoE - hodnota váhy dôkazu pre daný atribút
n - počet charakteristík zahrnutých do modelu
Faktor, kompenzačný parameter

Prvé štyri parametre už boli vypočítané, je predchádzajúca časť. Na výpočet faktora a offsetu sa používajú nasledujúce vzorce.

  • Faktor = pdo / Ln (2)
  • Ofset = skóre - (faktor × ln (kurzy))

Tu pdo znamená body na zdvojnásobenie šancí a zlá sadzba už bola vypočítaná vo vyššie uvedených správach o analýze charakteristík. Ak má scorecard základné kurzy 50: 1 pri 600 bodoch a pdo 20 (kurzy sa zdvojnásobujú každých 20 bodov), faktor a ofset budú:
Faktor = 20 / Ln (2) = 28,85
Ofset = 600 - 28,85 × Ln (50) = 487,14

Po dokončení všetkých výpočtov je dokončený proces vývoja výsledkovej karty. Časť výsledkovej karty je znázornená na obrázku 7.

Obrázok 7 - Final Scorecard s časťou Charakteristiky

Ak prichádzajú noví zákazníci, stačí nájsť správny atribút v každej charakteristike podľa údajov a získať skóre. Konečné kreditné skóre sa môže vypočítať ako súčet skóre každej charakteristiky. Napríklad banka má nového žiadateľa o kreditnú kartu vo veku 45 rokov, pomer dlhu 0,5 a mesačný príjem 5 000 dolárov. Kreditné skóre by malo byť: 53 + 55 + 57 = 165.

Aby sa vyvinula presnejšia hodnotiaca karta, ľudia zvyčajne musia zvážiť viac situácií. Napríklad v populácii sú niektorí jednotlivci označení ako „zlí“, ale ich žiadosť je schválená, zatiaľ čo niektoré „dobré“ osoby budú zamietnuté. Odvodenie odmietnutia sa teda má podieľať na procese vývoja. Nerobím túto časť, pretože si vyžaduje súbor údajov o zamietnutých prípadoch, ktoré v mojich údajoch nemám. Ak sa chcete o tejto časti dozvedieť viac, dôrazne vám odporúčame prečítať si Scorecards o úverových rizikách - vývoj a implementácia inteligentných bodovacích hodnotení napísaných Naeem Siddiqim.

Ak máte záujem o moju prácu alebo máte nejaké problémy, neváhajte ma kontaktovať. Ak sa chcete medzitým dozvedieť viac o tom, čo sa študenti dozvedeli z kurzov vedy o údajoch WeCloudData, pozrite si tento web:

www.weclouddata.com