Algorithmen (Zweifache ANOVA)

Inhalt

1 Theorie der zweifachen ANOVA
2 Homogenität der Varianzen
3 Mehrfache Mittelwertvergleiche
4 Analyse der Trennschärfe

Theorie der zweifachen ANOVA

Es sei $y_{ij,k}\,\!$ die k-te Beobachtung auf Stufe I des Faktors A und Stufe j des Faktors B. Dann kann das Modell der zweifachen ANOVA wie folgt geschrieben werden:

$y_{ij,k}=\mu +\alpha _i+\beta _j+\gamma _{ij}+\varepsilon _{ij,k}$

wobei $\mu \,\!$ der Mittelwert der gesamten Antwortdaten ist, $\alpha _i\,\!$ ist die Abweichung bei Niveau l des Faktors A; $\beta _j\,\!$ ist die Abweichung bei Niveau j des Faktors B, $\gamma _{ij}\,\!$ ist der Wechselwirkungsterm zwischen zwei Faktoren und $\varepsilon _{ij,k}\,\!$ ist der Fehlerterm. Anschließend wird die Stichprobenvariation in drei Teile geteilt, so dass wir drei Hypothesentests durchführen können:

Für Faktor A ist die Nullhypothese, dass die Mittelwerte der r verschiedenen Populationen gleich sind. Die Alternativhypothese lautet, dass sich mindestens ein Mittelwert einer Population von den anderen Mittelwerten unterscheidet:

$H_{01}:\alpha _1=\alpha _2=\ldots =\alpha _r=0$

$H_{A1}:\alpha _p\neq \alpha _q$ , für einige p und q, 1 ≤ p, q ≥ r;

Für Faktor B ist die Nullhypothese, dass die Mittelwerte der s verschiedenen Populationen gleich sind. Die Alternativhypothese lautet, dass sich mindestens ein Mittelwert einer Population von den anderen Mittelwerten unterscheidet:

$H_{02}:\beta _1=\beta _2=\ldots =\beta _s=0$ ;

$H_{A2}:\beta _p\neq \beta _q$ , für einige p und q, 1 ≤ p, q ≥ s;

Für den Wechselwirkungsterm lautet die Nullhypothese, dass keine Wechselwirkung zwischen den beiden Faktoren besteht:

$H_{03}:\gamma _1=\gamma _2=\ldots =\gamma _{rs}=0$ ;

$H_{A3}:\gamma _p\neq \gamma _q$ , für einige p und q, 1 ≤ p, q ≥ rs;

Um diese Hypothesen zu testen, teilt man anschließend die Varianz der gesamten Stichprobe in vier Teile und schätzt sie durch die Stichprobenvariation:

$SS_{Total}=SS_{Error}+SS_A+SS_B+SS_{AB}\,\!$

wobei

$SS_{Total}=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(y_{ij,k}-\bar y)^2$

$SS_{Error}=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(y_{ij,k}-\bar y_{ijm})^2$

$SS_A=st\sum_{i=1}^r(\bar y_{imm}-\bar y)^2$

$SS_B=rt\sum_{j=1}^s(\bar y_{mjm}-\bar y)^2$

$S_{AB}=t\sum_{i=1}^r\sum_{j=1}^s(\bar y_{ijm}-\bar y_{imm}-\bar y_{mjm}+\bar y)^2$

und wir haben

$\bar y=\frac 1{rst}\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^ty_{ij,k}$

$\bar y_{ij}=\frac 1t\sum_{k=1}^ty_{ij,k}$

$\bar y_{imm}=\frac 1{st}\sum_{j=1}^s\sum_{k=1}^ty_{ij,k}$

$\bar y_{mjm}=\frac 1{rt}\sum_{i=1}^r\sum_{k=1}^ty_{ij,k}$

$SS_{Total}$ ist die Gesamtsumme der Quadrate, $SS_A$ stellt die Variabilität der durchschnittlichen Differenzen von Faktor A dar, $SS_B$ stellt die Variabilität der durchschnittlichen Differenzen von Faktor B dar, $SS_{AB}$ stellt die Variabilität der Wechselwirkung dar und $SS_{Error}$ stellt die Variabilität aller einzelnen Stichproben dar. Anschließend kann der F-Test verwendet werden, um die Signifikanz der Varianz zwischen ihnen zu testen:

$F_A=\frac{MS_A}{MS_{Error}}=\frac{SS_A/(r-1)}{SS_{Error}/(rs(t-1))}\sim F_\alpha (r-1,rs(t-1))$

$F_B=\frac{MS_B}{MS_{Error}}=\frac{SS_B/(s-1)}{SS_{Error}/(rs(t-1))}\sim F_\alpha (s-1,rs(t-1))$

$F_{AB}=\frac{MS_{AB}}{MS_{Error}}=\frac{SS_{AB}/((r-1)(s-1))}{SS_{Error}/(rs(t-1))}\sim F_\alpha ((r-1)(s-1),rs(t-1))$

Bei einem gegebenen Signifikanzniveau $\alpha$ können wir die Nullhypothesen verwerfen, falls die F-Statistik den kritischen Wert $F_\alpha$ übersteigt. Das Gleiche gilt, falls der zugehörige p-Wert der F-Statistik kleiner ist als das Signifikanzniveau $\alpha$ . $H_0$ wird verworfen.

Die Berechnung der zweifachen ANOVA-Tabelle wird folgendermaßen zusammengefasst:

Quelle der Variation	Freiheitsgrade (DF)	Summe der Quadrate (SS)	Mittel der Quadrate (MS)	F-Wert	Wahrsch. > F
Faktor A	r - 1	$SS_A$	$MS_A$	$MS_A$ / $MS_{Error}$	$P\{F\geq F_{(r-1,rs(t-1),\alpha )}\}$
Faktor B	s - 1	$SS_B$	$MS_B$	$MS_B$ / $MS_{Error}$	$P\{F\geq F_{(s-1,rs(t-1),\alpha )}\}$
Wechselwirkung	(r- 1) (s - 1)	$SS_{AB}$	$MS_{AB}$	$MS_{AB}$ / $MS_{Error}$	$P\{F\geq F_{((r-1)(s-1),rs(t-1),\alpha )}\}$
Fehler	rs (t - 1)	$SS_{Error}$	$MS_{Error}$
Gesamt	rst - 1	$SS_{Total}$

Die Zweifache ANOVA in Origin benutzt einige der NAG-Funktionen. Die NAG-Funktion nag_dummy_vars (g04eac) wird verwendet, um die nötigen Designmatrizen zu erzeugen und die NAG-Funktion nag_regsn_mult_linear (g02dac) berechnet die linearen Regressionen der Designmatrizen. Diese Ergebnisse der linearen Regression werden dann verwendet, um die ANOVA-Tabelle zu bilden. Beachten Sie bitte die NAG-Dokumentation für weitere Hintergrundinformationen.

Homogenität der Varianzen

In der Varianzanalyse wird angenommen, dass verschiedene Stichproben gleiche Varianzen haben. Dies wird gewöhnlich Homogenität der Varianzen genannt. Der Levene-Test und der Brown-Forsythe-Test können zum Bestätigen der Annahme verwendet werden. Angenommen wir haben k Stichproben der Antwortdaten, wobei $y_{ij}\,\!$ den Wert der i-ten Beobachtung (i = 1, 2, ... $n_j$ ) auf der j-ten Faktorstufe (j = 1, 2, ..., k) darstellt. Die Hypothesen der beiden Tests (Levene und Brown-Forsythe) können wie folgt ausgedrückt werden:

$H_0$ : $\sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k$

$H_1$ : $\sigma^2 _p\neq \sigma^2 _q$ , für mindestens ein Paar (p, q), $1\leq p,q\leq k$

Definiert $Z_{ij}\,\!$ als die folgenden drei Definitionen bezüglich verschiedener Tests,

Absoluter Levene-Test: $Z_{ij}=|y_{ij}-\bar y_j|$
Quadratischer Levene-Test: $Z_{ij}^2=(y_{ij}-\bar y_j)^2$
Brown-Forsythe-Test: $Z_{ij}=|y_{ij}-m_j|\,\!$

Wenn $H_0$ hält, dann folgt die Teststatistik

$F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)}$

(nahezu) einer F-Verteilung $F_{(k-1,n-k)}\,\!$ , wobei $\overline{Z_j}$ und $\overline{Z}$ der Gruppenmittelwert bzw. der Gesamtmittelwert des $Z_{ij}\,\!$ ist.

Mehrfache Mittelwertvergleiche

Wenn ein Experiment der zweifachen ANOVA festgestellt hat, dass mindestens ein Faktorstufenmittelwert statistisch von den Mittelwerten der übrigen Faktorstufen abweicht, dann vergleicht ein Mittelwertevergleich nachfolgend alle möglichen Paare von Faktorstufenmittelwerten dieses Faktors, um festzustellen, welche(r) Mittelwert (oder Mittelwerte) signifikant abweicht (abweichen). Es gibt verschiedene Methoden des Mittelwertevergleichs in Origin. Wir verwenden die NAG-Funktion nag_anova_confid_interval (g04dbc), um Mittelwertevergleiche durchzuführen.

Zwei Typen des mehrfachen Mittelwertevergleichs:

Ein-Schritt-Methode Sie erstellt simultane Konfidenzintervalle, um zu zeigen, wie sich die Mittelwerte unterscheiden. Dazu gehören die Methoden nach Tukey-Kramer, Bonferroni, Dunn-Sidak, Fisher’s LSD, Scheffé und Dunnett.

Schrittweise Methode Diese Methode führt nacheinander die Hypothesentests aus. Dazu gehören der Holm-Bonferroni- und der Holm-Sidak-Test.

Trennschärfeanalyse

Die Analyse der Trennschärfe berechnet die Ist-Trennschärfe für die Stichprobendaten als auch die hypothetische Trennschärfe, falls zusätzliche Stichprobenumfänge angegeben sind.

Die Trennschärfe einer zweifachen Varianzanalyse ist ein Maß für deren Empfindlichkeit. Die Trennschärfe ist die Wahrscheinlichkeit, dass die ANOVA Unterschiede in den Mittelwerten der Grundgesamtheiten aufdeckt, wenn tatsächliche Unterschiede existieren. Drückt man dies mit den Begriffen der Null- und Alternativhypothese aus, so ist die Trennschärfe die Wahrscheinlichkeit dafür, dass die Teststatistik F stark genug ist, um die Nullhypothese zu verwerfen, wenn sie tatsächlich verworfen werden sollte (d.h. die Nullhypothese ist nicht wahr).

Das Dialogfeld Zweifache ANOVA in Origin kann Trennschärfen für Faktor A und Faktor B berechnen. Wenn das Kontrollkästchen Wechselwirkungen aktiviert wurde, kann Origin auch die Trennschärfe für die Wechselwirkung A*B berechnen.

Die Trennschärfe wird durch folgende Gleichung definiert:

$power=1-probf(f,df,dfe,nc)\,\!$

wobei f die Abweichung von der nicht zentrierten F-Verteilung mit df und dfe Freiheitsgraden und nc = SS/MSE ist. SS ist die Summe der Quadrate der Quelle A, B oder A*B, MSE ist das Mittel der Quadrate des Fehlers, df ist der Freiheitsgrad des Zählers für die Quelle A, B oder A*B, dfe ist der Freiheitsgrad der Fehler. Alle Werte (SS, MSE, df und dfe) werden der ANOVA-Tabelle entnommen. Der Wert von probf( ) wird durch die NAG-Funktion nag_prob_non_central_f_dist (g01gdc) ermittelt. Beachten Sie bitte die NAG-Dokumentation für weitere Hintergrundinformationen.

Die obige Beschreibung ist eine kurze Übersicht über den Algorithmus der einfachen ANOVA. Weitere Informationen über die Einzelheiten der mathematischen Deduktion finden Sie im entsprechenden Teil des Anwenderhandbuchs und der NAG-Dokumentation.

Skip Navigation Links

One, Two, and Three Way ANOVA