Statistické testování a modelování
Interpretace geodat
2024-04-22
Statistické testování modelování
- statistické testování - zjišťování, zda je nějaký jev statisticky významný
- modelování - vytváření modelů, které popisují vztahy mezi proměnnými či odvozují nové informace
Pojmy v R
- formula (vzorec) - zápis modelu v podobě
y ~ x1 + x2 + ...
y
je vysvětlovaná proměnná (závislá, výsledek)
x1
- xN
jsou vysvětlující proměnné (nezávislé, příčiny, prediktory)
- význam operátorů viz
- zápis názvů proměnných (bez uvozovek) - používá se NSE
- ke vzorci se vždy ve funkci přidávají data ve formátu
data.frame
- např. lineární regrese:
lm(y ~ x1 + x2, data = data)
Testovací a modelovací funkce
- značná část v základním R
- některé ve speciálních balíčcích
- problém s roztříštěností implementací těchto funkcí, nic není příliš sjednocené a velice komplikované na použití
- vzniká problém při složitějších analýzách, kde např. chceme jeden postup a model použít na více datových sadách
Ujednocení postupů
- vytvoření balíků, které slouží jako univerzální rozhraní pro další funkce
- sjednocení volání funkcí a formátu výstupů
- dva metabalíky - easystats a tidymodels
easystats
- balík easystats - sjednocení statistických funkcí - web
- parameters - základní statistické testy
- performance - vyhodnocení modelů
- report - vytváření reportů
- modelbased - modelování
- effectsize - velikosti efektu
- bayestestR - bayesovské testy
- see - vizualizace efektů
- insight - interpretace modelů
Ukázka easystats
- spíš jednotlivé funkce
- objekty, pro další zpracování a výstupy
- funguje na řadě objektů z jiných balíků, např.
report()
- spíš na jednodušší úlohy, které nemají velké části, které se opakují
tidymodels
- prvotní návrhy - balíky broom a modelr, které slouží pro zpracování výstupů modelů
- balík tidymodels - sjednocení framework modelování - web
- recipes - příprava dat
- parsnip - specifikace modelu a interface pro práci s různými modely, existují k němu doplňovací balíčky pro konkrétní typy modelů
- dials - specifikace parametrů modelu
- tune - ladění hyperparametrů modelu
- yardstick - vyhodnocení modelu
- workflows - spojení všech kroků do jednoho objektu
tidymodels
- na velice komplexní postupy, kde se velké části kódu či pracovního postupu opakují
- např. stejné zpracování několik různých datových sad, testování modelu s různými nastaveními, aplikace modelů z různých balíků