• Analytický tým plánuje průzkum veřejného mínění v rámci různorodého městského obyvatelstva. Rozhodli se použít kvótní výběr respondentů, stanovili kvóty na základě pohlaví, věku a vzdělání. Jaký je hlavní cíl použití kvótního výběru v tomto případě?

    Umožnit přesné a reprezentativní odhady pro celou populaci tím, že velikost vzorku každé skupiny bude shodná s velikostí skupiny v populaci.

  • Analytik zkoumá faktory ovlivňující cenu bytů a má k dispozici následující prediktory: velikost bytu v m², počet pokojů, velikost obývacího pokoje v m², vzdálenost od centra města a stáří budovy. Po provedení diagnostiky modelu zjistil VIF (Variance Inflation Factor) > 8 u proměnných „velikost bytu“ a „počet pokojů“. Jaký je nejvhodnější postup?

    Odstranit jednu z korelovaných proměnných na základě jejich teoretického významu pro model a síly vztahu k vysvětlované proměnné.

  • Analyzujete vztah mezi generací (úrovně od nejstarší po nejmladší: baby boomers, gen X, gen Y, gen Z) a četností online komunikace s přáteli (úrovně od „Vůbec ne“ po „Několikrát denně“). Který vhodný test míry asociace byste zvolili vzhledem k charakteru obou proměnných?

    Goodman-Kruskalovo gamma

  • Asociace mezi ordinálními znaky v kontingenční tabulce může být měřena několika ukazateli, které jsou založeny na počtu konkordantních a diskordantních párů. Jak se určují konkordantní páry při hodnocení shody odpovědí dvou respondentů na sérii otázek s možnými odpověďmi „ano“ nebo „ne“?

    Konkordantní páry jsou ty, ve kterých oba respondenti odpověděli „ano“ nebo oba odpověděli „ne“ na stejnou otázku.

  • Byla provedena analýza závislosti !INSERT IMAGE! mezi počtem hodin, které respondent tráví denně sledováním televize (tv1.tvhours), a potenciálními prediktory: věk respondenta (d1_age), vzděláním respondenta vyjádřeném počtem ukončených let vzdělání (d4_educ) a vzděláním otce respondenta vyjádřeném počtem ukončených let vzdělání (d24_paeduc). Jedním z výstupů analýzy je takzvaný Q-Q graf. K čemu slouží?

    Rozdělení reziduí modelu srovnávající jejich skutečné rozdělení s teoreticky očekávaným rozdělením, obvykle normálním.

  • Byla provedena analýza závislosti mezi !INSERT IMAGE! počtem hodin, které respondent tráví denně sledováním televize (tv1_tvhours) a potenciálními prediktory: věk respondenta (d1_age), vzděláním otce respondenta vyjádřeném počtem ukončených let vzdělání (d24_paeduc) a pohlavím (d5_gender, referenční úroveň „Male“). Výsledky analýzy jsou uvedeny v tabulce. Jakým způsobem byla vypočítána t-statistika pro každý regresní koeficient?

    Vydělíte odhad koeficientu (estimate) jeho standardní chybou (SE).

  • Chcete analyzovat souvislost mezi mírou plýtváním potravinami (Waste) a generací (Gen) z dočasného datového souboru s názvem „Consumers“. Který z následujících kódů SAS generuje kontingenční tabulku s pozorovanými a očekávanými četnostmi?

    proc freq data=work.Consumers; tables Waste*Gen / expected; run;

  • Co je charakteristické pro prostý náhodný výběr (simple random sampling) v kontextu sběru dat?

    Každý člen populace má známou a stejnou šanci být vybrán do vzorku.

  • Co jsou marginální četnosti v kontingenční tabulce?

    Četnosti v nejnižším řádku a pravém sloupci tabulky, které sumarizují celkový počet případů pro každou proměnnou.

  • Co o regresním !INSERT PICTURE! modelu vypovídá histogram v diagnostických grafech níže?

    Že chyby odhadu jsou normálně rozděleny.

  • Co označuje statistická chyba II. druhu?

    Nezamítnutí nulové hypotézy, která ve skutečnosti neplatí, tedy přehlédnutí skutečného efektu.

  • Co označuje termín HETEROSKEDASTICITA ve vztahu k vícenásobné lineární regresi?

    Přítomnost proměnlivé variance reziduí napříč různými hodnotami nezávislé proměnné, což může vést k neefektivním a zkresleným odhadům.

  • Co označují standardizované regresní koeficienty (standardized estimates) ve vícenásobné lineární regresi?

    Relativní důležitost každé nezávislé proměnné ve vztahu k závislé proměnné, když jsou všechny proměnné měřeny ve směrodatných odchylkách.

  • Co představuje β₁ v jednoduchém lineárním regresním modelu?

    parametr sklonu regresní přímky

  • Co při faktorové analýze znamená faktorová zátěž blízká 0?

    Žádný vztah mezi proměnnou a faktorem.

  • Co reprezentuje dendrogram v kontextu hierarchického shlukování?

    Dendrogram je grafické znázornění postupného sloučení nebo rozdělování shluků, které ukazuje, jak jsou jednotlivé body nebo skupiny bodů vzájemně propojeny na různých úrovních podobnosti.

  • Co ukazuje scree plot při faktorové analýze?

    Vlastní čísla faktorů v sestupném pořadí.

  • Co znamená pojem "pravděpodobná délka života" ve statistické demografii?

    Je to věk, kterého by se při dané úmrtnosti dožila polovina obyvatel (medián).

  • Co znamená pojem "střední délka života" ve statistické demografii?

    Je to průměrný počet let, kterého by dožil novorozenec při zachování současné úmrtnosti.

  • Čeho se při faktorové analýze dosáhne rotací faktorů?

    Zjednodušuje faktorovou strukturu pro lepší interpretaci.

  • Jak definujete pojem statistická síla testu?

    Míra schopnosti testu statistické hypotézy správně zamítnout nulovou hypotézu.

  • Jak se při faktorové analýze počítá faktorové skóre?

    Vynásobením standardizovaných hodnot pozorovaných proměnných faktorovými zátěžemi.

  • Jak se vypočítá hodnota chí-kvadrát statistiky v kontextu testu dobré shody (goodness-of-fit test)?

    Součet čtverců rozdílů mezi pozorovanými a očekávanými četnostmi, vydělených očekávanými četnostmi.

  • Jak se vypočítá koeficien determinace (R2) ve vztahu k jednoduché lineární regresi?

    Jako kvadrát Pearsonova korelačního koeficientu mezi nezávisle a závisle proměnnou.

  • Jak se vypočítá koeficient phi (φ) pro měření síly vztahu mezi dvěma binárními (dichotomickými) proměnnými v 2x2 kontingenční tabulce?

    q: Vypočítá se jako odmocnina z poměru chí-kvadrát statistiky a celkového počtu pozorování.

  • Jak souvisí Euklidovská vzdálenost s Pythagorovou větou?

    Euklidovská vzdálenost je odvozena z Pythagorovy věty a slouží k výpočtu přímé vzdálenosti mezi dvěma body v rovině nebo v prostoru.

  • Jaká charakteristika nejlépe popisuje progresivní věkovou pyramidu?

    Široká základna a úzký vrchol.

  • Jaká je jedna z hlavních výhod metody shlukování k-means oproti metodě hierarchického shlukování?

    K-means je typicky rychlejší a efektivnější z hlediska výpočetní náročnosti pro velké datové sady, zatímco hierarchické shlukování může být pro velké sady pomalé a náročné na paměť.

  • Jaká je maximální možná hodnota faktorové zátěže ve faktorové analýze?

    1

  • Jaký je vztah mezi odhadem sklonu regresní přímky (β1) metodou nejmenších čtverců ve jednoduché lineární regresi a Pearsonovým korelačním koeficientem?

    Sklon regresní přímky (β1) je roven Pearsonovu korelačnímu koeficientu násobenému poměrem směrodatné odchylky závislé proměnné k směrodatné odchylce nezávislé proměnné.

  • Jaký význam má ANOVA (omnibusový test) v kontextu lineární regresní analýzy?

    Testuje, zda jsou všechny koeficienty regresního modelu současně rovny nule, tedy zda model jako celek významně předpovídá závislou proměnnou.

  • Jednou z metod určení minimální velikosti vzorku je pomocí maximální šíře intervalu spolehlivosti. Představte si, že jste provedli průzkum spokojenosti zákazníků ve vaší restauraci a vypočítali průměrné hodnocení spokojenosti 8,2 z 10 na základě vzorku 100 náhodně vybraných zákazníků. Dále jste vypočítali 95% interval spolehlivosti pro tento průměr, který je (7,9; 8,5). Co tento interval spolehlivosti znamená?

    Pokud bychom tento průzkum opakovali mnohokrát, očekáváme, že průměrné hodnocení spokojenosti 95% těchto vzorků bude mezi 7,9 a 8,5.

  • Korelace mezi výší školného a počtem absolventů na amerických vysokých školách je 0,55. Co to znamená?

    Nic z uvedeného, korelace nevypovídá nic o kauzalitě vztahu.

  • Která metoda se ve společenských vědách nejčastěji používá k určení výchozího souboru faktorů při explorační faktorové analýze?

    Analýza hlavních komponent

  • Která podmínka NEpatří mezi kritéria definice nezaměstnaných osob podle mezinárodního standardu?

    Osoby nebyly v pracovním poměru ale byly samozaměstnané.

  • Která vícerozměrná statistická metoda patří do metod internální analýzy?

    Faktorová analýza

  • Která z následujících hodnot MSA (Measure of Sampling Adequacy) indikuje velmi dobrou vhodnost dat pro faktorovou analýzu?

    0,85

  • Které z následujících tvrzení nejlépe popisuje nulovou statistickou hypotézu?

    Nulová statistická hypotéza je předpoklad, že mezi skupinami neexistují žádné rozdíly nebo vztahy.

  • Který z následujících statistických testů se používá k posouzení vhodnosti dat pro faktorovou analýzu?

    Bartlettův test sféricity

  • Manažer banky je znepokojen tím, že procento zpracovaných úvěrů, které obsahují chyby, se zvýšilo nad přijatelných 1 %. K ověření jeho obavy se provede test významnosti (H₀: míra chybovosti úvěrů = 0,01, Hₐ: míra chybovosti úvěrů > 0,01). Manažer dojde k závěru, že míra chybovosti je vyšší než 1 %, i když ve skutečnosti tomu tak není. Jakého typu chyby se manažer dopustil?

    Chyba I. druhu

  • Manažer lidských zdrojů použije psychologický průzkum, aby vyhodnotil současnou spokojenost zaměstnanců pomocí skóre spokojenosti.

    Histogram

  • Manažer prodeje chce porovnat měsíční úroveň prodeje všech svých prodejců jako podíl na celkovém prodeji celé společnosti.

    Bodový graf.

  • Marketingová agentura analyzuje data o online nákupním chování zákazníků. Při určování počtu shluků sledují více kritérií a pozorují: \n - Pseudo F statistika má maximum při 3 shlucích. \n - Cubic Clustering Criterion (CCC) má maximum při 4 shlucích. \n - Silueta má nejvyšší průměrnou hodnotu při 3 shlucích. \n - Z business perspektivy dává smysl rozdělení do 3-4 segmentů.

    Detailně prozkoumat řešení pro 3 i 4 shluky a vybrat to, které lépe odpovídá business potřebám a je lépe interpretovatelné.

  • Marketingový manažer chce pro ředitele připravit zprávu ilustrující počet reklam umístěných na různých televizních kanálech, v novinách a na internetových stránkách. Má k dispozici počty pro jednotlivá místa.

    Koláčový graf

  • Máme populaci vysokoškolských studentů v ČR rozdělenou do čtyř oborů: humanitní, přírodovědecké, technické a lékařské. Z této populace chceme provést průzkum o studijních návycích. Abychom zajistili, že naše výsledky budou reprezentativní pro celou univerzitu, chceme, aby náš vzorek správně odrážel zastoupení studentů z každé fakulty v celkové populaci. Shromáždění dat o populaci: Ze statistického úřadu zjistíme, že v celkové populaci je 30 % studentů z humanitní fakulty, 25 % z přírodovědecké, 25 % z technické a 20 % z lékařské. Výběr vzorku: Náhodně vybereme 200 studentů a uspořádáme průzkum. Po sběru dat zjistíme, že náš vzorek má 40 % studentů z humanitní fakulty, 20 % z přírodovědecké, 20 % z technické a 20 % z lékařské. Jaký test použijete pro ověření shody očekávaných a získaných četností, tj. pro ověření reprezentativnosti struktury vzorku?

    Chí-kvadrát test.

  • Máte data o populaci, kde je 20,000 osob ve věku 0–14 let a 5,000 osob ve věku 65 a více let. Jaký je index stáří pro tuto populaci?

    25 = 100*(65+ let / 0-14 let)

  • Máte data o populaci, ve které je 25,000 osob ve věku 0–14 let a 50,000 osob v produktivním věku (15–64 let). Jaký je index závislosti mladých pro tuto populaci?

    0,5

  • Máte data rozdělená do různého počtu shluků a k dispozici následující hodnoty Pseudo F kritéria pro každé rozdělení: 1 shluk = 10.5, 2 shluky = 15.3, 3 shluky = 25.8, 4 shluky = 22.5, 5 shluků = 20.1. Jaký počet shluků byste zvolili jako optimální na základě Pseudo F kritéria?

    3 shluky, protože tato hodnota Pseudo F kritéria je nejvyšší a ukazuje na nejlepší rozdělení.

  • Máte data rozdělená do tří shluků a následující průměrné hodnoty koeficientu siluety pro každý shluk: Shluk 1 = 0.75, Shluk 2 = 0.55, Shluk 3 = 0.20. Na základě těchto informací, který shluk byste identifikovali jako nejhomogennější?

    Shluk 1, protože má nejvyšší průměrnou hodnotu koeficientu siluety, což ukazuje na dobře oddělený a soudržný shluk.

  • Máte shluk čtyř bodů v dvourozměrném prostoru: A(2, 4), B(4, 2), C(4, 4) a D(6, 6). Jaký je souřadnicový bod centroidu tohoto shluku?

    (4,4)

  • Mějme náhodnou veličinu X s průměrem μ = 5 a standardní odchylkou σ = 2, a náhodnou veličinu Y s průměrem μ = 10 a standardní odchylkou σ = 4. Který z následujících výroků nejlépe charakterizuje vztah mezi jejich korelační a kovarianční maticí?

    Korelační matice poskytuje méně informací o variabilitě dat než kovarianční matice, protože normalizuje rozptyl na jednotkový interval.

  • Následující tabulka ukazuje přeživší !INSERT IMAGE! z Titaniku podle pohlaví. Jaký je poměr šancí (odds ratio) na přežití žen (female) vůči přežití mužů (male)?

    10,1

  • Několik druhů ovoce !INSERT PICTURE! a zeleniny bylo podrobeno shlukové analýze podle obsahu energie, bílkovin, sacharidů a vlákniny. Byly identifikovány 4 shluky. Jedna z výstupních tabulek je uvedena níže. Který shluk je nejvíce homogenní a proč?

    Shluk 3, protože má nejnižší ukazatel RMS Std Deviation.

  • Několik druhů ovoce a zeleniny !INSERT IMAGE! bylo podrobeno shlukové analýze podle obsahu energie, bílkovin, sacharidů a vlákniny. Původní proměnné byly standardizovány pomocí z-skóre. Byly identifikovány 4 shluky. Jedna z výstupních tabulek je uvedena níže. Který klastr je charakteristický nadprůměrnou energetickou hodnotou a obsahem vlákniny?

    Klastr 2

  • Několik druhů ovoce a zeleniny bylo !INSERT IMAGE! podrobeno shlukové analýze podle obsahu energie, bílkovin, sacharidů a vlákniny. Byly identifikovány 4 shluky. Jedna z výstupních tabulek je uvedena níže. Které klastry jsou si nejblíže?

    Klastry 2 a 3

  • Několik druhů ovoce a zeleniny bylo podrobeno !INSERT IMAGE! shlukové analýze podle obsahu energie, bílkovin, sacharidů a vlákniny. Byly identifikovány 4 shluky. Jedna z výstupních tabulek je uvedena níže. Která proměnná nejvýrazněji odlišuje shluky?

    Bílkoviny

  • Obdrželi jste výsledek Kaiser-Meier-Olkinovy metriky (KMO) ve výši 0.65 pro váš datový soubor, který plánujete analyzovat pomocí faktorové analýzy. Jak byste interpretovali tuto hodnotu v kontextu vhodnosti vašich dat pro faktorovou analýzu?

    Data jsou poměrně vhodná pro faktorovou analýzu, ale s mírnou opatrností, protože KMO hodnota 0.65 naznačuje střední míru společné variance.

  • Označte pravdivé tvrzení týkající se shlukové analýzy.

    Shluková analýza nerozlišuje závisle a nezávisle proměnné.

  • Po dokončení faktorové analýzy na sadě psychologických testů jste extrahovali několik faktorů a vypočítali faktorová skóre pro každého respondenta. Byla použita rotace Varimax. Která z následujících tvrzení nejlépe popisuje očekávanou vlastnost těchto extrahovaných faktorových skóre?

    Každé faktorové skóre má průměr 0 a směrodatnou odchylku 1, což značí standardizaci v rámci vzorku.

  • Právě jste použili !INSERT PICTURE! PROC REG k regresi y na X1 a zjistili níže uvedenou tabulku odhadů parametrů. Jaký je vzhledem k těmto informacím nejlepší odhad (předpovězená hodnota) y, když X1 = 13?

    135

  • Pro kontingenční tabulku s 𝑅 řádky a 𝑆 sloupci má chí-kvadrát rozdělení počet stupňů volnosti

    (R-1)(S-1)

  • Předpokládejme, že analyzujete vztah mezi přísadami hot dogů a jejich chutí. Která z následujících statistik dokládá poměrně silnou souvislost mezi proměnnými Druh masa (která má hodnoty Hovězí, Vepřové a Drůbež) a Chuť (která má hodnoty Špatná a Dobrá)?

    Cramerova statistika V, která je blízká 1.

  • Předpokládejme, že testujete ordinální !INSERT IMAGE! souvislost mezi příjmem lidí (Income) a jejich indexem tělesné hmotnosti (BMI). Úrovně proměnných jsou uvedeny v tabulce. Mantelova-Haenszelova p-hodnota chí-kvadrátu je 0,01 a Spearmanova korelační statistika je 0,253. Jaký můžete vyvodit závěr o souvislosti mezi příjmem a BMI?

    Existuje přímo úměrná ordinální asociace.

  • Předpokládejte normální rozdělení hodnot. Jakou plochu pod křivkou normálního rozdělení bychom přibližně pokryli, pokud bychom se od průměru odchýlili od plus mínus jednu směrodatnou odchylku?

    68%

  • Představte si, máte za úkol analyzovat krabicový graf (box plot), který zobrazuje rozdělení finálních známek z matematiky ve dvou různých třídách. Který z následujících závěrů lze správně vyvodit z krabicového grafu?

    Medián, rozpětí mezi čtvrtým a prvním kvartilem a identifikaci odlehlých hodnot pro každou třídu.

  • Představte si, že analytický tým chce použít chí-kvadrát test pro ověření, zda je vzorek studentů reprezentativní z hlediska struktury podle věkových skupin. Tým shromáždil data o věkové struktuře z celkové populace a porovnává je s věkovou strukturou ve svém vzorku. Jaké tvrzení nejlépe popisuje, jak by měl být chí-kvadrát test použit v tomto scénáři?

    Chí-kvadrát test by měl být použit k přímému porovnání počtu studentů v každé věkové skupině ve vzorku s očekávanými počty na základě věkové struktury celkové populace.

  • Představte si, že máte dendrogram zobrazující výsledky hierarchického shlukování deseti různých bodů. Na horizontální ose jsou označeny body od 1 do 10, a vertikální osa měří vzdálenost nebo podobnost. Ve vzdálenosti 5 na vertikální ose lze vidět, že celý dendrogram se dělí na dvě hlavní větve. Jak byste interpretovali tuto informaci?

    Ve vzdálenosti 5 od sebe můžeme rozlišit dva hlavní shluky, což naznačuje, že by bylo vhodné rozdělit data do dvou skupin.

  • Představte si, že provádíte chí-kvadrát test nezávislosti, abyste zjistili, zda existuje vztah mezi pohlavím (muži vs. ženy) a preferencí určitého typu diety (nízkotučná vs. nízkosacharidová). Po provedení testu obdržíte p-hodnotu 0.045. Jak byste interpretovali tento výsledek?

    Existuje vztah mezi pohlavím a preferovaným typem diety, protože p-hodnota je nižší než 0.05.

  • Představte si, že výzkumný tým provádí průzkum spokojenosti zaměstnanců ve velké mezinárodní společnosti. Aby získali reprezentativní vzorek, rozhodnou se použít stratifikovaný náhodný výběr, rozdělující zaměstnance do skupin podle oddělení a zeměpisné polohy. Jaký je hlavní cíl použití stratifikovaného náhodného výběru v tomto případě?

    Zajistit, že vzorek bude obsahovat proporcionální zastoupení zaměstnanců z různých oddělení a lokací.

  • Při analýze dat o vztahu mezi kouřením a výskytem určitého zdravotního problému byl použit chí-kvadrát test na data zaznamenaná v kontingenční tabulce. Jak správně formulujete nulovou a alternativní hypotézu pro tento test?

    Nulová hypotéza (H₀): Neexistuje žádný vztah mezi kouřením a výskytem zdravotního problému. Alternativní hypotéza (H₁): Existuje vztah mezi kouřením a výskytem zdravotního problému.

  • Při provádění analýzy hlavních komponent z multidimenzionálních dat obsahujících pět manifestačních spojených proměnných jste zjistili, že první tři hlavní komponenty vysvětlují 60 %, 15 % a 10 % celkové variance dat. Chcete-li snížit dimenzionalitu dat, zatímco zachováte co nejvíce informací, kolik hlavních komponent byste si vybrali a proč?

    Tři hlavní komponenty, protože společně vysvětlují 85 % celkové variance dat a poskytují nejkomplexnější pohled.

  • Při provádění faktorové analýzy jste se rozhodli použít rotaci faktorů. Jaký je hlavní rozdíl mezi použitím ortogonální rotace, jako je například Varimax, a neortogonální rotace, jako je například Oblimin?

    Ortogonální rotace udržuje faktory nekorelované, zatímco neortogonální rotace umožňuje faktorům, aby byly korelované.

  • Při provádění faktorové analýzy na sadě proměnných jste vypočítali komunialitu pro jednu specifickou proměnnou a získali hodnotu 0,85. Co tato hodnota indikuje o proměnné ve vztahu k extrahovaným faktorům?

    85 % variability proměnné je vysvětleno všemi extrahovanými faktory dohromady.

  • Tato tabulka ukazuje statistiky četností pro proměnné Region (Country) a Velikost (Size) ze souboru dat, který obsahuje údaje o lidech a automobilech, které řídí. Jsou sledovány tři regiony (Amerika, Evropa, Japonsko) a tři velikostní kategorie automobilů (Large = velké; Medium = středně velké; Small = malé). Jaké důkazy v tabulce naznačují možnou významnou asociaci mezi regionem a velikostí automobilů?

    Řádková procenta (Row Pct) naznačují, že rozdělení velikostí se mění se změnou regionu.

  • Ukazatel počet zemřelých mužů na 1000 mužů se nazývá:

    Specifická míra úmrtnosti

  • Účetní společnost se obává, že zaměstnanci s nízkými platy častěji využívají možnost hrazení drobných výdajů, aby si vynahradili své nízké platy, a chce porovnat mzdy a náhrady drobných výdajů.

    Sloupcový graf a tabulka četností.

  • V rámci statistického projektu by Andrea ráda shromáždila údaje o velikosti domácností ve svém městě. Za tímto účelem se zeptá každé osoby ve své třídě na velikost její domácnosti a oznámí, že její vzorek je prostým náhodným výběrem. Nejedná se však o prostý náhodný výběr. Která z následujících možností nejlépe zdůvodňuje tuto otázku?

    Andrea nepoužila žádnou randomizaci; provedla účelový výběr.

  • V rámci výzkumu chcete zjistit, zda nově zavedený vzdělávací program má vliv na zlepšení výsledků studentů na standardizovaných testech. Jak správně formulujete oboustrannou nulovou a alternativní hypotézu pro tento scénář?

    Nulová hypotéza (H0): Neexistuje žádný rozdíl ve výsledcích studentů před a po zavedení nového vzdělávacího programu. Alternativní hypotéza (H1): Existuje rozdíl ve výsledcích studentů před a po zavedení nového vzdělávacího programu.

  • V supermarketech !INSERT PICTURE! a dokonce i v restauracích je poměrně běžné, že jsou ryby špatně označeny. V následující tabulce jsou uvedeny výsledky studie, při níž byl odebírán náhodný vzorek 156 ryb určených k prodeji a testován. Výzkumníci klasifikovali každý vzorek jako správně označený (properly labeled) nebo nesprávně označený (mislabeled). Jaká část uzených ryb (smoked) ve vzorku byla nesprávně označená? Vyberte nejbližší odpověď.

    78%

  • Ve které situaci je vhodné použít Fisherův přesný test?

    Když analyzujeme 2x2 kontingenční tabulku a některé očekávané četnosti jsou velmi malé (např. menší než 5).

  • Ve městě A bylo v loňském roce zaznamenáno 20,000 narození a 15,000 úmrtí, zatímco v městě B bylo 25,000 narození a 20,000 úmrtí. Do každého z obou měst se přistěhovalo 1,000 obyvatel, neodstěhoval se nikdo. Pokud obě města začínala rok s počtem obyvatel 500,000, jaký byl procentuální přirozený přírůstek v každém městě za minulý rok?

    Město A: 1%, Město B: 1%

  • Vyberte pravdivé tvrzení týkající se testování statistických hypotéz.

    Při větší velikosti vzorku je dosažení statistické významnosti pravděpodobnější. S rostoucí velikostí vzorku se zvyšuje schopnost detekovat i menší efekty jako statisticky významné.

  • Výzkumník analyzuje data z dotazníkového šetření spokojenosti zaměstnanců. Po provedení faktorové analýzy zjistil následující hodnoty komunality: \n - Spokojenost s platem: 0,82\n - Spokojenost s kolektivem: 0,78\n - Spokojenost s pracovní dobou: 0,25\n - Dojezdová vzdálenost do práce: 0,15\n Jaký by měl být další postup?

    Zvážit vyřazení posledních dvou proměnných z analýzy kvůli nízké komunalitě, protože pravděpodobně měří jiný konstrukt než ostatní proměnné.

  • Vzhledem k informacím v !INSERT IMAGE! tomto shrnutí výběru proměnných, která metoda postupného výběru byla zvolena?

    FORWARD

  • Vzhledem k informacím v !INSERT IMAGE! tomto shrnutí výběru proměnných, která metoda postupného výběru byla zvolena?

    FORWARD