Statisztika:
Próbák: (t-próbáknál nem veszik annyira komolyan a normalitást és a nagy minta számot sem)
- Egymintás t-próba: (3.óra) t.test(SYS1, mu = 155, conf.level = 0.95)
- vizsgálja: 1 érték, különbözik-e az átlagtól (becsléstől, cinkelt-e)?
- feltétel: normalitás, nagy minta
- végeredmény: normalitás vizsgálat, p-érték, szignifikancia
- Páros t-próba: (4.óra) t.test(sys1.csop1, sys2.csop1, conf.level = 0.95, paired = TRUE)
- vizsgálja: 1 minta, 2 átlagát hasonlítja össze
- feltétel: normalitás, nagy minta, összetartozó minta
- végeredmény: normalitás vizsgálat, p-érték, szignifikancia
- Kétmintás t-próba: (4.óra) t.test(sys1.csop1, sys2.csop1, conf.level = 0.95, paired = FALSE)
- vizsgálja: 2 minta, 1-1 átlag különböznek-e?
- feltétel: normalitás, nagy minta, független minta, szórásegyezés
- végeredmény: normalitás vizsgálat, p-érték, szignifikancia, függetlenség vizsgálat, szórásegyezés vizsgálat
- Welch-próba: (4.óra) t.test(sys1.csop1, sys1.csop2, conf.level = 0.9, var.equal = FALSE)
- vizsgálja: 2 minta, 1-1 átlag különböznek-e?
- feltétel: normalitás, független minta
- végeredmény: normalitás vizsgálat, p-érték, szignifikancia, függetlenség vizsgálat
Normalitás vizsgálat:
- Általánosan: (2.óra)
- feltétel: nagy minta
- hisztogram hist(salary)
- sűrűség függvény (5.óra) hist(salary, prob=TRUE)
curve( dnorm(x, mean=34420, sd=17076) , add=TRUE ) - boxplot boxplot(salary)
- skewness (normális, ha 0) ! library(moments) ! skewness(salary)
- Kolmogorov-Szmirnov-próba (5.óra) ks.test(salary, "pnorm", 34420, 17076)
- feltétel: folytonos vagy diszkrét eloszlásra
- végeredmény: p-érték, szignifikancia
*logaritmusát veszük hátha úgy jó lesz
logsalary = log(salary)
mean(logsalary)
sd(logsalary)
skewness(logsalary)
hist(logsalary, prob=TRUE)
curve( dnorm(x, mean=10.36, sd=0.397) , add=TRUE )
ks.test(logsalary, "pnorm", 10.36, 0.397)
Szórás egyezés vizsgálat:
- F-próba: (4.óra) var.test(sys1.csop1, sys1.csop2, conf.level = 0.9)
- feltétel: normalitás, független minta
- végeredmény: normalitás vizsgálat, p-érték, szignifikancia, függetlenség vizsgálat
- Levene – próba: (6.óra) leveneTest(SYS1 ~ factor(CSOP), center = mean)
- feltétel: normalitás, nagy minta
- végeredmény: normalitás vizsgálat, p- érték, szignifikancia
Függetlenség vizsgálat:
- Pearson korrelációs teszt: (6.óra) plot(HP, SP)
cor(HP, SP, method = "pearson") cor.test(VOL, SP, method = "pearson")
- feltétel: normailitás
- végeredmény: (lineáris) grafikon, R2 szám -+1-hez minél közelebb annál jobb az illeszkedés (függenek egymástól)
- Spearman korrelációs teszt: (6.óra) cor(HP, SP, method = "spearman")
- feltétel: folytonos eloszlás, nagy minta
- végeredmény: (pl.log) grafikon, R2 szám -+1-hez minél közelebb annál jobb az illeszkedés (függenek egymástól)
- ANOVA (Egyszempontos varianciaanalízis): (6.óra) oneway.test(SYS1 ~ factor(CSOP), var.equal = TRUE)
- feltétel: diszkrét eloszlás, szórásegyezés
- végeredmény: p-érték, szórás vizsgálat
- Khi-teszt: (valószínűség tesztelése) (5.óra) gyak.tablazat = table(jobkat, educ)
addmargins(gyak.tablazat)
barplot(gyak.tablazat, beside = T)
gyak.fuggetlen = margin.table(gyak.tablazat, 1) %*% t(margin.table(gyak.tablazat, 2)) / margin.table(gyak.tablazat)
addmargins(gyak.fuggetlen)
summary(gyak.tablazat)
- feltétel: diszkrét eloszlás
- végeredmény: p-érték
Megbizhatósági intervallum:
- Szignifikancia szint vizsgálat: (5.óra) chisq.test(tablazat, p=valsz)
- feltétel: nincs
- végeredmény: két szám
Becslés:
n = length(SYS1)
mean(SYS1)
sd(SYS1)
LÉPÉSEK:
1., Töröljük az előző órák anyagát ar R studióból.
remove(list=ls())
2., Olvassuk be a salary.txt állomány tartalmát az 'input' nevu táblázatba. Az alkstat_adatsorok.txt fájlban keressük meg az adatsor leírását. Csatoljuk fel a táblázatot, hogy így könnyebben tudjunk hivatkozni az oszlopokra. Töltsük be a 'moments' csomagot is (skewness).
input = read.table("salary.txt", header=TRUE)
attach(input)
library(moments) plot(input) library(car)
*attach után milyen szó áll, attól függ, hogy a felette lévő szó micsoda.