A tantárgyleírás hatályossága
| Tantárgy neve (magyarul, angolul) |
Adatelemzés
Data Analysis
|
||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Tantárgykód | BMEVISZAC00 | ||||||||||||
| Tantárgyjelleg | — | ||||||||||||
| Képzési szint | — | ||||||||||||
| Kurzustípusok és óraszámok (heti/féléves) |
|
||||||||||||
| Tanulmányi teljesítmény/értékelés típusa | vizsga | ||||||||||||
| Tantárgy kreditértéke | 4 | ||||||||||||
| Tantárgyfelelős |
Név:
|
||||||||||||
| Tantárgyat gondozó oktatási szervezeti egység |
Számítástudományi és Információelméleti Tanszék
|
||||||||||||
| Kar | Villamosmérnöki és Informatikai Kar | ||||||||||||
| Tantárgy weboldala | — | ||||||||||||
| Tantárgy elsődleges mintatantervi jellege | — | ||||||||||||
| Közvetlen előkövetelmények – Erős előkövetelmény | nincs | ||||||||||||
| Közvetlen előkövetelmények – Gyenge előkövetelmény | nincs | ||||||||||||
| Közvetlen előkövetelmények – Párhuzamos előkövetelmény | nincs | ||||||||||||
| Közvetlen előkövetelmények – Mérföldkő előkövetelmény | nincs | ||||||||||||
| Közvetlen előkövetelmények – Kizáró feltétel | nincs |
Célkitűzés
Az előadások ütemezése
1. A statisztikai becsléselmélet alapjai. Torzítatlanság, konzisztencia, hatásosság. Maximum likelihood módszer, momentumok módszere. A hipotéziselmélet alapfogalmai: nullhipotézis, alternatív hipotézis, próbastatisztika, elfogadási tartomány, kritikus tartomány, elsőfajú hiba, másodfajú hiba, erőfüggvény, szignifikancia-szint, erőfüggvény, a próba ereje, torzítatlanság, konzisztencia.
2. A normálisból származtatott eloszlások: Chi-négyzet, Student- és F-eloszlások. Lukács tétele. A paraméter fogalma. Paraméteres hipotézisek. A normális eloszlás paramétereire megfogalmazott szignifikancia próbák: egymintás u- és t- próbák, két független mintás u- és t-próbák, párosított két mintás t-próba, F-próba, Welch-próba, Bartlett-próba.
3. Nemparaméteres próbák I. A Chi-négyzet próbák alaptétele. Tiszta és becsléses illeszkedésvizsgálat Chi-négyzet próbával. Függetlenségvizsgálat Chi-négyzet-próbával. Két független minta homogenitásának ellenőrzése Chi-négyzet próbával. Gnegyenko-Koroljuk tétele. Rendstatisztikák, rendpróbák. Illeszkedésvizsgálat egymintás Kolmogorov-Szmirnov-próbával. Homogenitás-vizsgálat kétmintás Kolmogorov-Szmirnov próbával.
4. Nemparaméteres próbák II. Homogenitásvizsgálat. Két független minta homogenitásának ellenőrzése Mann-Whitney-próbával. Több független minta homogenitásának ellenőrzése Kruskal-Wallis próbával. Két összetartozó minta homogenitásának ellenőrzése Wilcoxon-próbával. Több összetartozó minta homogenitásának ellenőrzése Friedmann-próbával.
5. Kétváltozós regressziós módszerek. Elméleti háttér: a feltételes várható érték. A kétváltozós regresszió fajtái: Lineáris regressziók, polinomiális regresszió, lineárisra visszavezethető kétparaméteres regressziók. Logisztikus regresszió. A legkisebb négyzetek módszere. Szórásanalízis (ANOVA) a modell érvényességének eldöntésére. Meghatározottsági együttható..
6. Többváltozós lineáris regresszió. Modellépítési technikák. Korrelációs együtthatók: totális-, többszörös-, parciális-. A béta együtthatók Mintavételezési technikák. A minta reprezentativitása. Véletlen- és nemvéletlen mintavételezés. A szükséges mintaelemszám meghatározása.
7. Számonkérés, zárthelyi megírása az 1-6 hét anyagából.
8 Adatbányászat és üzleti intelligencia céljai és feladatai a gyakorlatban. Adathalmazok előkészítése az elemzés szempontjai alapján.
9. Termékhalmazok gyakorisága, vásárlói kosárelemzés ismertetése, asszociációs szabályok bevezetése. Alkalmazási területek hipermarketekben, bevásárlói kártyák, gyakori szekvenciák fogalma.
10. Felügyelt gépi tanulás. Tanulási hibák súlyozása, profit mátrix. Egyszerű osztályozó algoritmusok, (kNN, Naive-Bayes), metrikák.
11. Statisztika alapú döntések elősegítése döntési fákkal. Döntési fa tanuló algoritmusai (C4.5, tisztasági mértékek, vágások, elő és utó fa metszés), vezetői döntések meghozatala a megtanult modell alapján.
12. Osztályozás és regresszió. Ügyfélérték számítás, lemorzsolódás (churn) predikció. Hiteligénylők osztályozási feladata. Vásárlási hajlandóság predikálása direkt marketing kampányoknál.
13. Ügyfélszegmentáció és egyéb csoportosítási feladatok klaszterezéssel. A k-Means algoritmus és továbbfejlesztett változatai (pl. bisecting és adaptív k-Means). Sűrűség alapú módszerek (DBSCAN, OPTICS) illetve hierarchikus klaszterezés eredményeinek vizsgálata üzleti szempontból.
14. Pár ismert és/vagy nyílt
forráskódú adatbányászati szoftverek használata, modellépítés a gyakorlatban,
osztályozó és klaszterező algoritmusok korlátai.
A számítógépes gyakorlatok ütemezése:
1. A felhasznált statisztikai szoftver működésének átfogó ismertetése. Leíró statisztikák definíciói, értelmezése. Grafikonok: oszlop-, torta-grafikonok, boxdiagramm, hisztogramm, P-P-, Q-Q-grafikon, szóródásábrák. Konfidencia-intervallumok értelmezése, paraméteres próbák végrehajtása és kiértékelése közgazdasági adatmátrixokon. Véletlenszámok generálása.
2. Paraméteres próbák végrehajtása: egymintás- és két független mintás t-próba, Welch próba. Párosított mintás t-próba. Egyszerű csoportosítás (ANOVA), posthoc-analízis. Vállalati és üzleti adatokon végzett illeszkedésvizsgálat, függetlenségvizsgálat és homogenitásvizsgálat chi-négyzet és Kolmogorov-Szmirnov próbákkal.
3. Homogentiásvizsgálat két minta esetében független és párosított esetben. A kettőnél több minta esetei. Post hoc elemzés. Üzleti adatmátrix változói közötti kapcsolatfeltárás regresszióanalízissel. Lineáris és nemlineáris regressziós vizsgálatok. A modellépítési technikák gyakorlása, összehasonlítása többváltozós lineáris regressziónál.
4. Statisztikai adatok felhasználása adatbányászati feladatokra. Hitelkérelem bináris döntésének profit mátrixa, döntési feladatok megoldása egyszerű algoritmusokkal.
5. Vásárolt könyvek adatbázisán kosárelemzési feladatok. Döntési fa segítségével elérhető „lift” számítása.
6. Modell építés egy webshopban böngésző potenciális vásárló vásárlási hajlandóság becslésére.
7. Cég ügyfélkörének szegmentálása az ügyfelek adatai (pl. kor, vásárlások gyakorisága és összértéke) alapján. Valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
Tanulmányi eredmények
Ez a tantárgy a KKK rendeletben meghatározott, következő kompetenciák fejlesztését szolgálja:
Tudás
Nincsenek rögzített tanulási eredmények.
Képességek
Nincsenek rögzített tanulási eredmények.
Attitűd
Nincsenek rögzített tanulási eredmények.
Autonómia és felelősség
Nincsenek rögzített tanulási eredmények.
Oktatási módszertan
Tanulástámogató anyagok
Online források
A tantárgy teljesítéséhez ajánlott előzetes ismeretek
Általános szabályok
Teljesítményértékelési módszerek
Szorgalmi időszakban végzett teljesítményértékelések részletes leírása
Nincs megadva részletes értékelés.
Szorgalmi időszakban végzett teljesítményértékelések részaránya
Nincs megadva részarány.
Vizsgaidőszakban végzett teljesítményértékelések részletes leírása
Nincs megadva részletes értékelés.
Vizsgarészek részaránya
Nincs megadva részarány.
Érdemjegy megállapítása
Nincs megadva érdemjegy határ.
Jelenléti és részvételi követelmények
Nincs megadva jelenléti követelmény.
Javítás, ismétlés és pótlás különös szabályai
Nincs megadva.
Rövid leírás
Nincs megadva.
Részletes leírás
Nincs megadva.
Ajánlott tantárgyak
Nincs megadva.
A tantárgy elvégzéséhez szükséges tanulmányi munka
Nincs megadva munkaidő bontás.
Tantárgykövetelmények hatályossága
Tantervi elhelyezés
Nincsenek rögzített tantervi elhelyezések ehhez a tárgyverzióhoz.