Adatelemzés

Data Analysis
A tantárgyleírás hatályossága
Hatályosság kezdete:
2026. March 21.
Hatályosság vége:
Tantárgy neve (magyarul, angolul)
Adatelemzés
Data Analysis
Tantárgykód BMEVISZAC00
Tantárgyjelleg
Képzési szint
Kurzustípusok és óraszámok (heti/féléves)
Kurzustípus elmélet gyakorlat laboratóriumi gyakorlat
óraszám (heti) 2 1 0
jelleg (kapcsolt/önálló)
Tanulmányi teljesítmény/értékelés típusa vizsga
Tantárgy kreditértéke 4
Tantárgyfelelős
Név:
Tantárgyat gondozó oktatási szervezeti egység
Számítástudományi és Információelméleti Tanszék
Kar Villamosmérnöki és Informatikai Kar
Tantárgy weboldala
Tantárgy elsődleges mintatantervi jellege
Közvetlen előkövetelmények – Erős előkövetelmény nincs
Közvetlen előkövetelmények – Gyenge előkövetelmény nincs
Közvetlen előkövetelmények – Párhuzamos előkövetelmény nincs
Közvetlen előkövetelmények – Mérföldkő előkövetelmény nincs
Közvetlen előkövetelmények – Kizáró feltétel nincs

Célkitűzés

Tantárgyprogram

Az előadások ütemezése

1.       A statisztikai becsléselmélet alapjai. Torzítatlanság, konzisztencia, hatásosság. Maximum likelihood módszer, momentumok módszere. A hipotéziselmélet alapfogalmai: nullhipotézis, alternatív hipotézis, próbastatisztika, elfogadási tartomány, kritikus tartomány, elsőfajú hiba, másodfajú hiba, erőfüggvény, szignifikancia-szint, erőfüggvény, a próba ereje, torzítatlanság, konzisztencia.

 

2.       A normálisból származtatott eloszlások: Chi-négyzet, Student- és F-eloszlások. Lukács tétele. A paraméter fogalma. Paraméteres hipotézisek. A normális eloszlás paramétereire megfogalmazott szignifikancia  próbák: egymintás u- és t- próbák, két független mintás u- és t-próbák, párosított két mintás t-próba, F-próba, Welch-próba, Bartlett-próba.

 

3.       Nemparaméteres próbák I. A Chi-négyzet próbák alaptétele. Tiszta és becsléses illeszkedésvizsgálat Chi-négyzet próbával. Függetlenségvizsgálat Chi-négyzet-próbával. Két független minta homogenitásának ellenőrzése Chi-négyzet próbával. Gnegyenko-Koroljuk tétele. Rendstatisztikák, rendpróbák. Illeszkedésvizsgálat egymintás Kolmogorov-Szmirnov-próbával.  Homogenitás-vizsgálat kétmintás Kolmogorov-Szmirnov próbával.

 

4.      Nemparaméteres próbák II.  Homogenitásvizsgálat. Két független minta homogenitásának ellenőrzése Mann-Whitney-próbával. Több független minta homogenitásának ellenőrzése Kruskal-Wallis próbával. Két összetartozó minta homogenitásának ellenőrzése Wilcoxon-próbával. Több összetartozó minta homogenitásának ellenőrzése Friedmann-próbával.

 

5.       Kétváltozós regressziós módszerek. Elméleti háttér: a feltételes várható érték. A kétváltozós regresszió fajtái: Lineáris regressziók, polinomiális regresszió, lineárisra visszavezethető kétparaméteres regressziók. Logisztikus regresszió. A legkisebb négyzetek módszere. Szórásanalízis (ANOVA) a modell érvényességének eldöntésére. Meghatározottsági együttható..

 

6.     Többváltozós lineáris regresszió. Modellépítési technikák. Korrelációs együtthatók: totális-, többszörös-, parciális-. A béta együtthatók  Mintavételezési technikák. A minta reprezentativitása. Véletlen- és nemvéletlen mintavételezés. A szükséges mintaelemszám meghatározása.

 

7. Számonkérés, zárthelyi megírása az 1-6 hét anyagából.

 

8 Adatbányászat és üzleti intelligencia céljai és feladatai a gyakorlatban. Adathalmazok előkészítése az elemzés szempontjai alapján.

 

9.      Termékhalmazok gyakorisága, vásárlói kosárelemzés ismertetése, asszociációs szabályok bevezetése. Alkalmazási területek hipermarketekben, bevásárlói kártyák, gyakori szekvenciák fogalma.

 

10.    Felügyelt gépi tanulás. Tanulási hibák súlyozása, profit mátrix. Egyszerű osztályozó algoritmusok, (kNN, Naive-Bayes), metrikák.

 

11.    Statisztika alapú döntések elősegítése döntési fákkal. Döntési fa tanuló algoritmusai (C4.5, tisztasági mértékek, vágások, elő és utó fa metszés), vezetői döntések meghozatala a megtanult modell alapján.

 

12.    Osztályozás és regresszió. Ügyfélérték számítás, lemorzsolódás (churn) predikció. Hiteligénylők osztályozási feladata. Vásárlási hajlandóság predikálása direkt marketing kampányoknál.

 

13.    Ügyfélszegmentáció és egyéb csoportosítási feladatok klaszterezéssel. A k-Means algoritmus és továbbfejlesztett változatai (pl. bisecting és adaptív k-Means). Sűrűség alapú módszerek (DBSCAN, OPTICS) illetve hierarchikus klaszterezés eredményeinek vizsgálata üzleti szempontból.


14.    Pár ismert és/vagy nyílt forráskódú adatbányászati szoftverek használata, modellépítés a gyakorlatban, osztályozó és klaszterező algoritmusok korlátai.
 

A számítógépes gyakorlatok  ütemezése:

 

 

1.       A felhasznált statisztikai szoftver működésének átfogó ismertetése. Leíró statisztikák definíciói, értelmezése. Grafikonok: oszlop-, torta-grafikonok, boxdiagramm, hisztogramm, P-P-, Q-Q-grafikon, szóródásábrák. Konfidencia-intervallumok értelmezése, paraméteres próbák végrehajtása és kiértékelése közgazdasági adatmátrixokon. Véletlenszámok generálása.

 

2.      Paraméteres próbák végrehajtása: egymintás- és két független mintás t-próba, Welch próba. Párosított mintás t-próba. Egyszerű csoportosítás (ANOVA), posthoc-analízis. Vállalati és üzleti adatokon végzett illeszkedésvizsgálat, függetlenségvizsgálat és homogenitásvizsgálat chi-négyzet és Kolmogorov-Szmirnov próbákkal.

 

3.     Homogentiásvizsgálat két minta esetében független és párosított esetben. A kettőnél több minta esetei. Post hoc elemzés. Üzleti adatmátrix változói közötti kapcsolatfeltárás regresszióanalízissel. Lineáris és nemlineáris regressziós vizsgálatok. A modellépítési technikák gyakorlása, összehasonlítása többváltozós lineáris regressziónál.

 

 

4.      Statisztikai adatok felhasználása adatbányászati feladatokra. Hitelkérelem bináris döntésének profit mátrixa, döntési feladatok megoldása egyszerű algoritmusokkal.

 

5.       Vásárolt könyvek adatbázisán kosárelemzési feladatok. Döntési fa segítségével elérhető „lift” számítása.

 

6.       Modell építés egy webshopban böngésző potenciális vásárló vásárlási hajlandóság becslésére.

 

7.       Cég ügyfélkörének szegmentálása az ügyfelek adatai (pl. kor, vásárlások gyakorisága és összértéke) alapján. Valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.

Az előadások célja, hogy a hallgatók a félév végére elsajátítsák a statisztikai és az üzleti adatbányászati módszerek alapismereteit. A gyakorlatokon különböző valós problémákból származó alkalmazási példák kielemzése és adatintenzív problémák megoldása folyik számítógépes támogatással. Megszerezhető készségek, képességek: A hallgatók képesek lesznek a vállalati szférában felismerni az üzleti intelligenciával megoldható problémákat, készség szinten fogják használni a problémák megoldására a statisztikai és adatbányászati eszközöket, valamint képesek lesznek a vállalathoz kapcsolódó ügyfelek adataira és egyéb céges adatokra építve profitorientált analitikai megoldásokat tervezni és megvalósítani.

Tanulmányi eredmények

Ez a tantárgy a KKK rendeletben meghatározott, következő kompetenciák fejlesztését szolgálja:

Tudás

Nincsenek rögzített tanulási eredmények.

Képességek

Nincsenek rögzített tanulási eredmények.

Attitűd

Nincsenek rögzített tanulási eredmények.

Autonómia és felelősség

Nincsenek rögzített tanulási eredmények.

Oktatási módszertan

Heti 2 óra előadás és heti 1 órás gyakorlat.  

Tanulástámogató anyagok

Online források
1. Fazekas; I. (szerk.): Bevezetés a matematikai statisztikába, Kossuth Egyetemi Kiadó,; Debrecen, 2000.;  ; 2; Ketskeméty, Pintér: Bevezetés a matematikai statisztikába.  Egyetemi jegyzet.; www.szit.bme.hu/~kela/ind3.html; 3; Ketskeméty, Izsó, Könyves-Tóth: Bevezetés az IBM SPSS Statistics; programrendszerbe. Arteria Studió, 2011.; 4; Bolla Marianna, Krámli András: Statisztikai következtetések elmélete, Typotex,; 2005; 5; P. Tan, M. Steinbach, V. Kumar: Introduction to Data Mining, Addison-Wesley,; 2006, Cloth; 769 pp, ISBN-10: 0321321367, ISBN-13: 9780321321367; http://www-users.cs.umn.edu/~kumar/dmbook/index.php; 6; Bodon Ferenc: Adatbányászati algoritmusok; http://www.cs.bme.hu/~bodon/magyar/adatbanyaszat/tanulmany/index.html; 7; Leskovic, Rajraman, Ullmann: Mining of Massive Datasets; http://infolab.stanford.edu/~ullman/mmds.html; 8; Cser László, Fajszi Bulcsú, Fehér Tamás: Üzleti haszon az adatok mélyén - Az; adatbányászat mindennapjai, Alinea Kiadó, 2010.; -

A tantárgy teljesítéséhez ajánlott előzetes ismeretek

Tudás típusú kompetenciák
(azon előzetes ismeretek összessége, amelyek megléte nem kötelező, de a tantárgy eredményes teljesítését nagyban elősegíti)
Valószínűségszámítás, Algoritmuselmélet
Képesség típusú kompetenciák
(azon előzetes képességek és készségek összessége, amelyek megléte nem kötelező, de a tantárgy eredményes teljesítését nagyban elősegíti)
nincs
Ajánlott (nem kötelező) előzetesen megszerzendő kompetenciák
(azon ajánlott (nem kötelező) előzetesen megszerzendő kompetenciák összessége, amelyek jelentősen hozzájárulnak a tantárgy eredményes teljesítéséhez)
nincs
Általános szabályok
Követelmények: a. A szorgalmi időszakban:   A félév során zárthelyi dolgozat lesz. A számítógépes gyakorlatokon való részvétel kötelező, melyekre az előadás illetve a kiadott ütemterv alapján felkészülten kell megjelenni. A felkészülést beugró jelleggel mérjük. A gyakorlaton végzett munkát dokumentálni kell, a dokumentációt az óra végén be kell adni. A beadott dokumentációt és az elvégzett munkát osztályozzuk. Az aláírás megszerzésének feltétele: A gyakorlati foglalkozások 66%-ának sikeres teljesítése, valamint a zh legalább 40%-os teljesítése. Nem kötelező jelleggel lehetőség van féléves házi feladat beadására is. A házi feladatra plusz pont adható legalább elégséges teljesítmény esetén.   b. A vizsgaidőszakban: írásbeli vizsga. A vizsgajegy megállapításának módja: A laboratóriumi gyakorlatokon megszerzett pontok  legjobb 70%-ának (legjobb 5 gyakorlat) átlaga 30%-ban a zh pont 20% -ban és az írásbeli vizsga eredményének 50%-ban, ha a vizsga legalább elégséges szintű (legalább 40%). Pótlási lehetőségek: A számítógépes gyakorlatok pótlására nincs lehetőség. A szorgalmi időszakban pótzh-át, a pótlási héten aláíráspótló zh-át írunk.  
Teljesítményértékelési módszerek
Szorgalmi időszakban végzett teljesítményértékelések részletes leírása

Nincs megadva részletes értékelés.

Szorgalmi időszakban végzett teljesítményértékelések részaránya

Nincs megadva részarány.

Vizsgaidőszakban végzett teljesítményértékelések részletes leírása

Nincs megadva részletes értékelés.

Vizsgarészek részaránya

Nincs megadva részarány.

Érdemjegy megállapítása

Nincs megadva érdemjegy határ.

Jelenléti és részvételi követelmények

Nincs megadva jelenléti követelmény.

Javítás, ismétlés és pótlás különös szabályai

Nincs megadva.

Rövid leírás

Nincs megadva.

Részletes leírás

Nincs megadva.

Ajánlott tantárgyak

Nincs megadva.

A tantárgy elvégzéséhez szükséges tanulmányi munka

Nincs megadva munkaidő bontás.

Tantárgykövetelmények hatályossága
Tantárgykövetelmények hatályosságának kezdete:
Tantárgykövetelmények hatályosságának vége:
Tantervi elhelyezés

Nincsenek rögzített tantervi elhelyezések ehhez a tárgyverzióhoz.