# =============================== # # Alkalmazott statisztika # # 8. gyakorlat # # Függetlenségvizsgálat # # =============================== # # ELMÉLET # Két diszkrét változó -> khí négyzet próba # Egy diszkrét, egy folytonos -> egyszempontos ANOVA # Két folytonos, két normális -> Pearson-féle korrelációs együttható # Feltételek: # # Olvassuk be a salary.txt állomány tartalmát az 'input' nevű táblázatba. input = read.table("salary.txt", header = TRUE) attach(input) # Töltsük be a 'car' csomagot. library(car) #leveneTesthez # Kérjük le a változók pontdiagramját. Mely változók között tapasztalunk # kapcsolatot? plot(input) # mindent, mindennel ábrázol plot(input, col = "#00000033") # ====================================================================== # Kérdezzük le a 'jobkat' és az 'educ' változó együttes gyakorisági # táblázatát. Milyen gyakoriságokat kellene kapnunk, ha a két változó # független lenne egymástól? Teszteljük khi-négyzet próbával azt a # nullhipotézist, hogy a két változó független. # H0: a két változó független (normális eloszlás szükséges) # H0: a munkahelyi beosztás független az iskolai végzettségtől # az 'educ' is diszkrét változó # khí négyzet próba summary(input) gyak.tablazat = table(jobkat, educ) # gyakorisági táblázatba mentés #ezt nevezzük kontingencia táblázatnak addmargins(gyak.tablazat) # sorösszegek, oszlopösszegeket hozzáadja barplot(gyak.tablazat, beside = T) #már előre definiált gyakoriság táblázatot adjuk meg gyak.fuggetlen = margin.table(gyak.tablazat, 1) %*% t(margin.table(gyak.tablazat, 2)) / margin.table(gyak.tablazat) # várt gyakoriságok elmentése addmargins(gyak.fuggetlen) summary(gyak.tablazat) chisq.test(gyak.tablazat)$expected # várt gyakoriságok $expecteddel # következtetés: p < 0,001 < 0,05 -> kisebb, mint a szignifikancia szint, elutasítjuk # H0-t elutasítjuk -> a munkahelyi beosztás függ az iskolai végzettségtől # khí négyzet próba a várt és megfigyelt gyakoriságokat hasonlítja össze # várt: a H0 fennállása esetén meglévő gyakoriságok # (sorösszeg+oszlopösszeg)/elemszám # Teszteljük az 'educ' és a 'minority' változó függetlenségét. # ugyanezzel meválasztolható # Függ a gyerekek száma az alkalmazott nemétől? # ====================================================================== # Ábrázoljuk a jelenlegi fizetés boxplotját iskolai végzettség # szerinti bontásban. Teszteljük azt a nullhipotézist, hogy a jelenlegi # fizetés várható értéke független a végzettségtől. # egyszempontos ANOVA # feltételei: csoportonkénti normális eloszlás, varianca azonossága(levene teszt) # //... h-próba nem kell a ZH-ba boxplot(salary ~ educ) leveneTest(salary ~ factor(educ), center = mean) #variancia azonossága, faktorrá kell alakítani # az iskolai végzettséget folytonosnak veszi, ezért kell faktorizálni oneway.test(salary ~ factor(educ), var.equal = FALSE) # mivel nem azonosak a varianciák, FALSE # többmintás Welch-próba # p < 0.001, elutasítjuk a nullhipotézist # az átlagos fizetés függ az iskolai végzettésgtől # Teszteljük azt az állítást, hogy a kezdő fizetés nem függ # a beosztástól. Függ a vállalatnál eltöltött idő a nemtől? # folytonos-diszkrét, egyszempontos ANOVA # vállalatnál eltöltött idő szintén, egyszempontos ANOVA, illetve kétmintás t-próba, F-próba va- # riancia azonosságára # ====================================================================== # Kérdezzük le a jelenlegi és a kezdő fizetés Pearson-korrelációját. # Függ a jelenlegi fizetés a kezdő fizetéstől? Ha igen, akkor pozitív # vagy negatív irányú kapcsolat van a kettő között? Adjunk meg egy 95 százalék # megbízhatóságú konfidenciaintervallumot az elméleti korrelációra. # két folytonos változó # pontábrával ábrázoljuk # tudunk-e egyenest illeszteni a pontábrára # Pearson-féle korrelációs együttható: -1 és 1 közé esik (-1 <= ró <= 1), lineáris, monoton kapcsola- # tot vizsgál # mintából tudunk pontbecslést adni rá, minél közelebb van -1 vagy 1-hez, annál jobban illeszkedik az # egyenes # ha -1 -> csökkenő egyenes # ha 1 -> növekvő egyenes # ha független (pontfelhőben helyezkednek el), a két változó között nem lineáris a kapcsolat, vagy, hogy # független a két változó # korrelálatlanságból nem következik a függetlenség (kivéve ha 2D-ből származik) plot(salbegin, salary) cor(salbegin, salary, method = "pearson") # közel van 1-hez -> növekvő egyenest illeszthetünk rá # H0: a korr. eh. = 0, a két változó között nincs lineáris kapcsolat # H1: az igazi korr. 0-tól különböző # mivel a 0 nincs benne a konfidencia intervallumban, elutasítjuk cor.test(salbegin, salary, method = "pearson", conf.level = 0.95) # p < 0.001 -> elutasítjuk, a két változó között lineáris kapcsolat van, előjele: + # szoros(kor = 0.88), növekvő lineáris kapcsolat # Függ-e, és ha igen, milyen módon a jelenlegi fizetés attól, # hogy az alkalmazott milyen régen áll alkalmazásban? # Pearson-féle korr. eh.-val tudjuk tesztelni detach(input)