# =============================== #
# Alkalmazott statisztika #
# 8. gyakorlat #
# Függetlenségvizsgálat #
# =============================== #
# ELMÉLET
# Két diszkrét változó -> khí négyzet próba
# Egy diszkrét, egy folytonos -> egyszempontos ANOVA
# Két folytonos, két normális -> Pearson-féle korrelációs együttható
# Feltételek:
#
# Olvassuk be a salary.txt állomány tartalmát az 'input' nevű táblázatba.
input = read.table("salary.txt", header = TRUE)
attach(input)
# Töltsük be a 'car' csomagot.
library(car) #leveneTesthez
# Kérjük le a változók pontdiagramját. Mely változók között tapasztalunk
# kapcsolatot?
plot(input) # mindent, mindennel ábrázol
plot(input, col = "#00000033")
# ======================================================================
# Kérdezzük le a 'jobkat' és az 'educ' változó együttes gyakorisági
# táblázatát. Milyen gyakoriságokat kellene kapnunk, ha a két változó
# független lenne egymástól? Teszteljük khi-négyzet próbával azt a
# nullhipotézist, hogy a két változó független.
# H0: a két változó független (normális eloszlás szükséges)
# H0: a munkahelyi beosztás független az iskolai végzettségtől
# az 'educ' is diszkrét változó
# khí négyzet próba
summary(input)
gyak.tablazat = table(jobkat, educ) # gyakorisági táblázatba mentés
#ezt nevezzük kontingencia táblázatnak
addmargins(gyak.tablazat) # sorösszegek, oszlopösszegeket hozzáadja
barplot(gyak.tablazat, beside = T) #már előre definiált gyakoriság táblázatot adjuk meg
gyak.fuggetlen = margin.table(gyak.tablazat, 1) %*% t(margin.table(gyak.tablazat, 2)) / margin.table(gyak.tablazat)
# várt gyakoriságok elmentése
addmargins(gyak.fuggetlen)
summary(gyak.tablazat)
chisq.test(gyak.tablazat)$expected # várt gyakoriságok $expecteddel
# következtetés: p < 0,001 < 0,05 -> kisebb, mint a szignifikancia szint, elutasítjuk
# H0-t elutasítjuk -> a munkahelyi beosztás függ az iskolai végzettségtől
# khí négyzet próba a várt és megfigyelt gyakoriságokat hasonlítja össze
# várt: a H0 fennállása esetén meglévő gyakoriságok
# (sorösszeg+oszlopösszeg)/elemszám
# Teszteljük az 'educ' és a 'minority' változó függetlenségét.
# ugyanezzel meválasztolható
# Függ a gyerekek száma az alkalmazott nemétől?
# ======================================================================
# Ábrázoljuk a jelenlegi fizetés boxplotját iskolai végzettség
# szerinti bontásban. Teszteljük azt a nullhipotézist, hogy a jelenlegi
# fizetés várható értéke független a végzettségtől.
# egyszempontos ANOVA
# feltételei: csoportonkénti normális eloszlás, varianca azonossága(levene teszt)
# //... h-próba nem kell a ZH-ba
boxplot(salary ~ educ)
leveneTest(salary ~ factor(educ), center = mean) #variancia azonossága, faktorrá kell alakítani
# az iskolai végzettséget folytonosnak veszi, ezért kell faktorizálni
oneway.test(salary ~ factor(educ), var.equal = FALSE) # mivel nem azonosak a varianciák, FALSE
# többmintás Welch-próba
# p < 0.001, elutasítjuk a nullhipotézist
# az átlagos fizetés függ az iskolai végzettésgtől
# Teszteljük azt az állítást, hogy a kezdő fizetés nem függ
# a beosztástól. Függ a vállalatnál eltöltött idő a nemtől?
# folytonos-diszkrét, egyszempontos ANOVA
# vállalatnál eltöltött idő szintén, egyszempontos ANOVA, illetve kétmintás t-próba, F-próba va-
# riancia azonosságára
# ======================================================================
# Kérdezzük le a jelenlegi és a kezdő fizetés Pearson-korrelációját.
# Függ a jelenlegi fizetés a kezdő fizetéstől? Ha igen, akkor pozitív
# vagy negatív irányú kapcsolat van a kettő között? Adjunk meg egy 95 százalék
# megbízhatóságú konfidenciaintervallumot az elméleti korrelációra.
# két folytonos változó
# pontábrával ábrázoljuk
# tudunk-e egyenest illeszteni a pontábrára
# Pearson-féle korrelációs együttható: -1 és 1 közé esik (-1 <= ró <= 1), lineáris, monoton kapcsola-
# tot vizsgál
# mintából tudunk pontbecslést adni rá, minél közelebb van -1 vagy 1-hez, annál jobban illeszkedik az
# egyenes
# ha -1 -> csökkenő egyenes
# ha 1 -> növekvő egyenes
# ha független (pontfelhőben helyezkednek el), a két változó között nem lineáris a kapcsolat, vagy, hogy
# független a két változó
# korrelálatlanságból nem következik a függetlenség (kivéve ha 2D-ből származik)
plot(salbegin, salary)
cor(salbegin, salary, method = "pearson") # közel van 1-hez -> növekvő egyenest illeszthetünk rá
# H0: a korr. eh. = 0, a két változó között nincs lineáris kapcsolat
# H1: az igazi korr. 0-tól különböző
# mivel a 0 nincs benne a konfidencia intervallumban, elutasítjuk
cor.test(salbegin, salary, method = "pearson", conf.level = 0.95)
# p < 0.001 -> elutasítjuk, a két változó között lineáris kapcsolat van, előjele: +
# szoros(kor = 0.88), növekvő lineáris kapcsolat
# Függ-e, és ha igen, milyen módon a jelenlegi fizetés attól,
# hogy az alkalmazott milyen régen áll alkalmazásban?
# Pearson-féle korr. eh.-val tudjuk tesztelni
detach(input)