Statistické testování a modelování

Interpretace geodat

Jan Caha

2024-04-22

Statistické testování modelování

  • statistické testování - zjišťování, zda je nějaký jev statisticky významný
  • modelování - vytváření modelů, které popisují vztahy mezi proměnnými či odvozují nové informace

Pojmy v R

  • formula (vzorec) - zápis modelu v podobě y ~ x1 + x2 + ...
    • y je vysvětlovaná proměnná (závislá, výsledek)
    • x1 - xN jsou vysvětlující proměnné (nezávislé, příčiny, prediktory)
    • význam operátorů viz
    • zápis názvů proměnných (bez uvozovek) - používá se NSE
  • ke vzorci se vždy ve funkci přidávají data ve formátu data.frame
    • např. lineární regrese: lm(y ~ x1 + x2, data = data)

Testovací a modelovací funkce

  • značná část v základním R
  • některé ve speciálních balíčcích
  • problém s roztříštěností implementací těchto funkcí, nic není příliš sjednocené a velice komplikované na použití
  • vzniká problém při složitějších analýzách, kde např. chceme jeden postup a model použít na více datových sadách

Ujednocení postupů

  • vytvoření balíků, které slouží jako univerzální rozhraní pro další funkce
  • sjednocení volání funkcí a formátu výstupů
  • dva metabalíky - easystats a tidymodels

easystats

  • balík easystats - sjednocení statistických funkcí - web
    • parameters - základní statistické testy
    • performance - vyhodnocení modelů
    • report - vytváření reportů
    • modelbased - modelování
    • effectsize - velikosti efektu
    • bayestestR - bayesovské testy
    • see - vizualizace efektů
    • insight - interpretace modelů

Ukázka easystats

  • spíš jednotlivé funkce
  • objekty, pro další zpracování a výstupy
  • funguje na řadě objektů z jiných balíků, např. report()
  • spíš na jednodušší úlohy, které nemají velké části, které se opakují

tidymodels

  • prvotní návrhy - balíky broom a modelr, které slouží pro zpracování výstupů modelů
  • balík tidymodels - sjednocení framework modelování - web
    • recipes - příprava dat
    • parsnip - specifikace modelu a interface pro práci s různými modely, existují k němu doplňovací balíčky pro konkrétní typy modelů
    • dials - specifikace parametrů modelu
    • tune - ladění hyperparametrů modelu
    • yardstick - vyhodnocení modelu
    • workflows - spojení všech kroků do jednoho objektu

tidymodels

  • na velice komplexní postupy, kde se velké části kódu či pracovního postupu opakují
  • např. stejné zpracování několik různých datových sad, testování modelu s různými nastaveními, aplikace modelů z různých balíků

Ukázka tidymodels

Dotazy?