Kapitola-6 Ako sa naučiť funkciu inžinierstva?

Machine Learning Series!

Ahoj ľudia, toto je najúžasnejší článok, ktorý mení váš pohľad na strojové učenie. Začneme diskutovať o tom, prečo je strojové učenie tak dôležité pre strojové učenie.

obrys

1.Čo je charakteristické inžinierstvo?
2. Spracovanie údajov
 2.1. Nedimenzionalizácia
 2.1.1 Normalizácia
 2.1.2 Metóda intervalového škálovania
 2.1.3 Rozdiel medzi normalizáciou a normalizáciou
 2.2 Viazanie kvantitatívnych znakov
 2.3 Pár kvalitatívnych znakov Matt kódovanie
 2.4 Výpočet chýbajúcich hodnôt
 2.5 Transformácia dát
3 Vlastnosti Vyberte
 3.1 Filter
 3.1.1 Metóda výberu odchýlky
 3.1.2 Metóda korelačného koeficientu
 3.1.3 Test na štvorci
 3.1.4 Metóda vzájomnej výmeny informácií
 3.2 Balič
 3.2.1 Metóda eliminácie rekurzívnej funkcie
 3.3 vložené
 3.3.1 Metóda výberu prvkov na základe trestu
 3.3. 2 Metóda výberu prvkov na základe stromu
4 Zníženie rozmerov
 4.1 Analýza hlavných komponentov (PCA)
 4.2 Lineárna diskriminačná analýza (LDA)

1. Čo je charakteristické inžinierstvo?

V priemysle sa bežne hovorí: údaje a charakteristiky určujú hornú hranicu strojového učenia a modely a algoritmy sa k tejto hornej hranici blížia. Aký je charakteristický projekt? Ako už názov napovedá, jeho podstatou je inžinierska činnosť určená na maximalizáciu extrakcie prvkov zo nespracovaných údajov na použitie v algoritmoch a modeloch. Zhrnutím a zhrnutím si ľudia myslia, že vývoj funkcií zahŕňa nasledujúce aspekty:

Spracovanie prvkov je hlavnou časťou vývoja prvkov. Sklearn poskytuje úplnejšiu metódu spracovania prvkov vrátane predbežného spracovania dát, výberu prvkov a zmenšenia rozmerov. Prvý kontakt so spoločnosťou sklearn je často priťahovaný bohatou a pohodlnou knižnicou modelov algoritmov, ale tu opísaná knižnica na manipuláciu s funkciami je tiež veľmi silná!

V tomto článku sa na ilustráciu funkcií spracovania funkcií používa súbor údajov IRIS (Iris) v sklearn. Súbor údajov IRIS zostavil Fisher v roku 1936 a obsahuje štyri prvky (Sepal.Length, Sepal.Width, Petal.Length, Petal.Width), vlastné hodnoty. Obidva čísla sú kladné desatinné čísla v centimetroch. Cieľovou hodnotou je klasifikácia Iris (Iris Setosa), Iris Versicolour (Iris Virginica), Iris Virginica (Virginia Iris). Kód na import súboru údajov IRIS je nasledujúci:

2. Spracovanie údajov

Extrakciou funkcií môžeme získať nespracované funkcie a funkcie v súčasnosti môžu mať nasledujúce problémy:

  • Nepatrí do rovnakej dimenzie: to znamená, že vlastnosti týchto prvkov sú odlišné a nedajú sa navzájom porovnávať. Tento problém môže vyriešiť nedimenzionalizácia.
  • Redundancia informácií: V prípade niektorých kvantitatívnych prvkov je účinnou informáciou rozdelenie intervalov, napríklad akademický výkon. Ak vám záleží len na „úspešnom“ alebo nie „úspešnom“, musíte previesť kvantitatívne skóre testu na „1“ a „0“. „“ Znamená absolvovanie a zlyhanie. Binarizácia môže tento problém vyriešiť.
  • Kvalitatívne prvky nemožno použiť priamo: niektoré algoritmy a modely strojového učenia môžu akceptovať iba vstupy z kvantitatívnych prvkov, takže kvalitatívne prvky je potrebné previesť na kvantitatívne prvky. Najjednoduchším spôsobom je určiť kvantitatívnu hodnotu pre každú kvalitatívnu hodnotu, ale táto metóda je príliš flexibilná a zvyšuje prácu ladenia. Kvalitatívny znak sa zvyčajne konvertuje na kvantitatívny znak pomocou fiktívneho kódovania: ak existujú N kvalitatívne hodnoty, potom sa tento znak rozšíri na N znaky. Ak je pôvodnou hodnotou prvku i-tá kvalitatívna hodnota, priradí sa i-tá rozšírená funkcia. Je 1, ďalším rozšíreniam je priradená hodnota 0. V porovnaní s priamo špecifikovanou metódou nemý spôsob kódovania nemusí zvyšovať prácu nastavovania parametrov. Pre lineárny model môže použitie nemého kódovaného znaku dosiahnuť nelineárny efekt.
  • Chýbajú hodnoty: chýbajúce hodnoty je potrebné pridať.
  • Nízke využitie informácií: Rôzne algoritmy a modely strojového učenia používajú rôzne údaje v údajoch. Ako bolo uvedené vyššie, v lineárnych modeloch môže použitie kvalitatívnych prvkov nemého kódovania dosiahnuť nelineárne účinky. Podobne môže polynomializácia kvantitatívnych premenných alebo iných transformácií dosiahnuť nelineárne účinky.

Používame preprocessingovú knižnicu v sklearn na predspracovanie dát na pokrytie riešenia vyššie uvedeného problému.

2.1

Bezrozmerný prevádza údaje rôznych špecifikácií na rovnakú špecifikáciu. Bežnými metódami bezrozmernosti sú štandardizácia a úprava intervalu. Predpokladom štandardizácie je, že vlastné hodnoty sa riadia normálnym rozdelením a po normalizácii sa konvertujú na štandardné normálne rozdelenie. Metóda intervalového škálovania využíva informácie o hraničných hodnotách na škálovanie rozsahu funkcií na rozsah znakov, ako napríklad [0, 1].

2.1.1 Normalizácia

Normalizácia vyžaduje výpočet strednej a štandardnej odchýlky prvku vyjadrenej ako:

Kód, ktorý normalizuje údaje pomocou triedy StandardScaler preprocessingovej knižnice, je nasledujúci:

2.1.2 Metóda intervalového škálovania

Existuje veľa nápadov na prispôsobenie intervalov. Bežným je použitie dvoch maximálnych hodnôt v mierke. Vzorec je vyjadrený ako:

Kód na škálovanie intervalov údajov pomocou triedy MinMaxScaler v preprocessingovej knižnici je nasledujúci:

2.1.3 Rozdiel medzi normalizáciou a normalizáciou

Jednoducho povedané, štandardizácia spočíva v spracovaní údajov podľa stĺpcov funkčnej matice, ktorá prevádza hodnoty prvkov vzoriek do rovnakej dimenzie metódou z-score. Normalizácia je spracovanie údajov podľa riadkov funkčnej matice. Účelom je, aby vzorový vektor mal jednotný štandard, keď operácia násobenia bodov alebo iná funkcia jadra počíta podobnosť, to znamená, že sa prevedie na „jednotkový vektor“. Normalizačný vzorec s pravidlom l2 je nasledujúci:

Kód, ktorý normalizuje údaje pomocou triedy Normalizer predspracovateľskej knižnice, je nasledujúci:

2.2 Binárne kvantitatívne vlastnosti

Jadrom kvantitatívnej binarizácie prvkov je stanovenie prahu. Hodnota väčšia ako prahová hodnota je 1 a hodnota menšia alebo rovná prahovej hodnote je 0. Vzorec je nasledujúci:

Kód na binarizáciu údajov pomocou triedy Binarizer predspracovateľskej knižnice je nasledujúci:

2.3 Kvalitatívne vlastnosti nemého kódovania

Pretože vlastnosti súboru údajov IRIS sú všetky kvantitatívne znaky, ich cieľové hodnoty sa používajú na fiktívne kódovanie (v skutočnosti sa nevyžadujú). Kód pre nemé kódovacie dáta používajúce triedu OneHotEncoder v preprocessingovej knižnici je nasledujúci:

2.4 Výpočet chýbajúcich hodnôt

Pretože súbor údajov IRIS nemá žiadne chýbajúce hodnoty, do súboru údajov sa pridá nová vzorka a všetkým štyrom funkciám sa priradí hodnota NaN, čo naznačuje, že údaje chýbajú. Kód pre výpočty chýbajúcich údajov pomocou triedy Imputer v preprocessingovej knižnici je nasledujúci:

2.5 Transformácia dát

Bežné transformácie údajov sú funkcie založené na polynóme, na exponenciálnom protokole. Štyri charakteristiky vzorca pre konverziu polynómu so stupňom 2 sú nasledujúce:

Kód pre polynomickú konverziu údajov pomocou triedy PolynomialFeatures preprocessingovej knižnice je nasledujúci:

Transformácia údajov založená na funkcii jedného argumentu sa môže vykonať jednotným spôsobom. Kód na prevod logaritmických funkcií pomocou funkcie FunctionTransformer predspracovateľskej knižnice je nasledujúci:

3. Výber funkcie

Po dokončení predbežného spracovania údajov je potrebné vybrať zmysluplné algoritmy a modely strojov, ktoré bude strojové učenie trénovať. Vo všeobecnosti si vyberte vlastnosti z dvoch perspektív:

  • Či sa vlastnosť odkloní: Ak sa vlastnosť neodkloní, napríklad je rozptyl blízko nuly, to znamená, že vzorka v podstate nemá žiadny rozdiel v tejto vlastnosti, táto vlastnosť nie je užitočná na rozlíšenie vzoriek.
  • Korelácia medzi prvkami a cieľmi: Je to jasnejšie a mali by sa uprednostňovať prvky, ktoré sú vo vysokej miere v spojení s cieľom. Okrem metódy rozptylu sa z korelácie považujú aj ďalšie metódy opísané v tomto článku.

Podľa formy výberu prvku možno metódu výberu prvku rozdeliť do troch typov:

  • Filter: Metóda filtra, ktorá hodnotí každú funkciu podľa divergencie alebo korelácie, nastavuje prahovú hodnotu alebo počet prahových hodnôt, ktoré sa majú vybrať, a vyberie prvky.
  • Wrapper: Metóda wrapper, ktorá vyberá niekoľko funkcií súčasne alebo vylučuje niekoľko funkcií na základe objektívnej funkcie (zvyčajne skóre prediktívneho účinku).
  • Embedded: Metóda integrácie, ktorá ako prvá používa niektoré algoritmy a modely strojového učenia na trénovanie, získava váhové koeficienty každej funkcie a vyberá vlastnosti podľa koeficientov od veľkých po malé. Podobne ako pri metóde Filter, ale je vyškolený na určovanie výhod a nevýhod funkcie.

Na výber funkcií používame knižnicu feature_selection v sklearn.

3.1 Filter
3.1.1 Metóda výberu odchýlky

Použitím metódy výberu variancie sa najprv vypočíta rozptyl každého znaku a potom sa podľa prahu vyberie znak, ktorého rozptyl je väčší ako prah. Kód pre výber funkcií pomocou triedy Variance Threshold v knižnici feature_selection je nasledujúci:

3.1.2 Metóda korelačného koeficientu

Použitím metódy korelačného koeficientu sa najprv vypočíta korelačný koeficient každého prvku s cieľovou hodnotou a hodnota P korelačného koeficientu. Pomocou triedy SelectKBest knižnice feature_selection môžete skombinovať korelačné koeficienty a vybrať kód funkcie takto:

3.1.3 Test na štvorci

Klasický chí-kvadrát test slúži na testovanie korelácie kvalitatívnych nezávislých premenných s kvalitatívnymi závislými premennými. Predpokladajme, že nezávislá premenná má N druhov hodnôt a závislá premenná má M druhov hodnôt. Zvážte rozdiel medzi pozorovanou hodnotou a očakávanou hodnotou frekvencie vzorky, ktorej nezávislá premenná sa rovná i a závislá premenná sa rovná j, a zostavte štatistiku:

Nie je ťažké zistiť, že zmyslom tejto štatistiky je jednoducho korelácia nezávislej premennej so závislou premennou. Použite triedu SelectKBest knižnice feature_selection v spojení s testom chí-kvadrát na výber kódu funkcie takto:

3.1.4 Metóda vzájomnej výmeny informácií

Klasické vzájomné informácie sa používajú aj na vyhodnotenie korelácie kvalitatívnych nezávislých premenných s kvalitatívnymi závislými premennými. Vzorec na výpočet vzájomných informácií je nasledujúci:

Na spracovanie kvantitatívnych údajov sa navrhuje metóda maximálneho informačného koeficientu. Kód používajúci triedu SelectKBest knižnice feature_selection kombinovanú s metódou maximálneho informačného koeficientu na výber funkcií je nasledujúci:

3.2 Balič
3.2.1 Eliminácia rekurzívnych prvkov

Metóda rekurzívnej eliminácie používa základný model na vykonanie viacerých kôl tréningu. Po každom kole tréningu sa zrušia vlastnosti niekoľkých váhových koeficientov a ďalšie kolo tréningu sa vykoná na základe novej sady funkcií. Kód, ktorý používa triedu RFE knižnice feature_selection na výber funkcií, je nasledujúci:

3.3 vložené
3.3.1 Výber prvkov založených na treste

Pri použití základného modelu s pokutami sa okrem odfiltrovania prvkov vykoná aj zníženie rozmerov. Použite triedu SelectFromModel knižnice feature_selection v spojení s logistickým regresným modelom s pokutou L1 na výber kódu funkcie takto:

V skutočnosti je princípom redukcie rozmerov sankčného obdobia L1 zachovanie jedného zo znakov, ktoré majú rovnaký význam pre cieľovú hodnotu, takže nevybraný znak nepredstavuje nepodstatný význam. Preto ju možno optimalizovať v kombinácii s trestným obdobím L2. Špecifická operácia je nasledovná: ak má znak váhu 1 v L1, znak, ktorý má malý rozdiel v hmotnosti v L2 a hmotnosť 0 v L1, predstavuje homogénnu množinu a znaky v množine sú rovnomerne rozdelené. do L1. Hmotnosť, takže musíte vytvoriť nový logistický model regresie:

Použite triedu SelectFromModel knižnice feature_selection v spojení s logistickým regresným modelom s pokutami L1 a L2 na výber kódu funkcie takto:

3.3.2 Výber prvkov založený na stromovom modeli

V stromovom modeli možno GBDT použiť aj ako základný model pre výber prvkov. Kód funkcie sa vyberie pomocou triedy SelectFromModel knižnice feature_selection v spojení s modelom GBDT.

4. Zníženie rozmerov

Po dokončení výberu prvkov je možné model priamo vyškoliť, ale matica prvkov je príliš veľká, čo má za následok veľké množstvo výpočtov a dlhý čas na zaškolenie. Preto je tiež potrebné zmenšiť rozmer matice prvkov. Bežné metódy na zníženie rozmerov Okrem vyššie uvedeného modelu založeného na pokutách L1 existuje analýza hlavných komponentov (PCA) a analýza lineárnej diskriminácie (LDA). Samotná lineárna diskriminačná analýza je tiež klasifikačným modelom. PCA a LDA majú veľa podobností, ktorých podstatou je zmapovanie pôvodnej vzorky do priestoru nižšej dimenzie, ale cieľ mapovania PCA a LDA je odlišný: PCA znamená, aby mapovaná vzorka mala najväčšiu divergenciu. LDA je navrhnutý tak, aby mapovanej vzorke poskytoval najlepší klasifikačný výkon. PCA je teda nekontrolovaná metóda redukcie dimenzie a LDA je kontrolovaná metóda redukcie dimenzie.

4.1 Analýza hlavných komponentov (PCA)

Kód na výber funkcií pomocou triedy PCA dekompozičnej knižnice je nasledujúci:

4.2 Lineárna diskriminačná analýza (LDA)

Kód pre výber funkcií pomocou triedy LDA knižnice lda je nasledujúci:

Referencie:

  1. https://www.quora.com/topic/Data-Cleansing
  2. https://www.quora.com/What-is-the-real-meaning-of-data-cleaning-for-a-Data-Scientist
  3. https://www.quora.com/What-is-your-best-description-of-data-cleaning-in-data-analysis-and-machine-learninghttps://www.quora.com/What-is- your-best-description-of-dát-čistenie-in-data-analýza-and-machine-learning