アルゴリズム(二元配置分散分析)


Two-Way ANOVAの理論

y_{ij,k}\,\!を因子Aのレベル I と因子Bのレベル j でのk番目の観測値を表すものとすると、二元配置分散分析モデルは下記のように書くことができます。

y_{ij,k}=\mu +\alpha _i+\beta _j+\gamma _{ij}+\varepsilon _{ij,k}

ここで、\mu \,\!は全体の応答データの平均、\alpha _i\,\!は因子Aのレベル I での偏差、\beta _j\,\! は因子Bのレベル j での偏差、\gamma _{ij}\,\!は2つの因子間の交互作用項、\varepsilon _{ij,k}\,\! は誤差項です。そして、標本の変化は、3つの部分に分けられ、3つの仮説検定を行うことができます。

因子Aに関しては、帰無仮説はr の異なる母集団の平均が同じとし、対立仮説は、少なくとも1つの標本の平均が、他とは異なるということになります。

H_{01}:\alpha _1=\alpha _2=\ldots =\alpha _r=0

H_{A1}:\alpha _p\neq \alpha _q, のとき、p および qにおいて1 ≤ p, qr

因子Bについては、帰無仮説は、s の異なる母集団の平均が同じであり、対立仮説は少なくとも1つの母集団の平均が他の母集団と異なるということになります。

H_{02}:\beta _1=\beta _2=\ldots =\beta _s=0;

H_{A2}:\beta _p\neq \beta _qのとき、pおよびqに対して 1 ≤ p, qs;

交互作用の項に対して、帰無仮説は、2つの因子間の交互作用が無いということです。

H_{03}:\gamma _1=\gamma _2=\ldots =\gamma _{rs}=0;

H_{A3}:\gamma _p\neq \gamma _qのとき、pおよびqに対して 1 ≤ p, qrs;

これらの仮説を検証するため、標本全体の分散を4つの部分に分け、標本の変動によって推定します。

SS_{Total}=SS_{Error}+SS_A+SS_B+SS_{AB}\,\!

ここで

SS_{Total}=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(y_{ij,k}-\bar y)^2

SS_{Error}=\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^t(y_{ij,k}-\bar y_{ijm})^2

SS_A=st\sum_{i=1}^r(\bar y_{imm}-\bar y)^2

SS_B=rt\sum_{j=1}^s(\bar y_{mjm}-\bar y)^2

S_{AB}=t\sum_{i=1}^r\sum_{j=1}^s(\bar y_{ijm}-\bar y_{imm}-\bar y_{mjm}+\bar y)^2

また、

\bar y=\frac 1{rst}\sum_{i=1}^r\sum_{j=1}^s\sum_{k=1}^ty_{ij,k}

\bar y_{ij}=\frac 1t\sum_{k=1}^ty_{ij,k}

\bar y_{imm}=\frac 1{st}\sum_{j=1}^s\sum_{k=1}^ty_{ij,k}

\bar y_{mjm}=\frac 1{rt}\sum_{i=1}^r\sum_{k=1}^ty_{ij,k}

SS_{Total}は平方和であり、SS_Aは因子Aからの平均差の変動を表します。SS_Bは因子Bとの平均差の変動を表し、 SS_{AB}はは交互作用の変動、SS_{Error}はすべての個別の標本の変動を表します。次に、F検定を使って、それらの間の分散の有意差を検定できます。

F_A=\frac{MS_A}{MS_{Error}}=\frac{SS_A/(r-1)}{SS_{Error}/(rs(t-1))}\sim F_\alpha (r-1,rs(t-1))

F_B=\frac{MS_B}{MS_{Error}}=\frac{SS_B/(s-1)}{SS_{Error}/(rs(t-1))}\sim F_\alpha (s-1,rs(t-1))

F_{AB}=\frac{MS_{AB}}{MS_{Error}}=\frac{SS_{AB}/((r-1)(s-1))}{SS_{Error}/(rs(t-1))}\sim F_\alpha ((r-1)(s-1),rs(t-1))

ある有意水準\alphaが与えられると、 F 統計量が重要な値F_\alphaを超える場合、またはF統計量のP値が有意水準\alpha以下の場合、帰無仮説H_0 は棄却されます。

二元配置分散分析の計算は以下のようにまとめることができます。

変動のソース 自由度(DF) 平方和(SS) 平均平方(MS) F Prob > F
因子A r - 1 SS_A MS_A MS_A / MS_{Error} P\{F\geq F_{(r-1,rs(t-1),\alpha )}\}
因子B s - 1 SS_B MS_B MS_B / MS_{Error} P\{F\geq F_{(s-1,rs(t-1),\alpha )}\}
交互作用 (r- 1) (s - 1) SS_{AB} MS_{AB} MS_{AB} / MS_{Error} P\{F\geq F_{((r-1)(s-1),rs(t-1),\alpha )}\}
誤差 rs (t - 1) SS_{Error} MS_{Error}
合計 rst - 1 SS_{Total}

Originの二元配置分散分析は、いくつかのNAG関数を使っています。NAG関数nag_dummy_vars(g04eac)は必要な設計行列を作成するために使用され、NAG関数nag_regsn_mult_linear(g02dac)は設計行列の線形回帰を実行するために使用されます。線形回帰の結果は、二元配置ANOVA表を作成するのに使われます。詳細はNAG文書をご覧ください。

等分散性

分散分析においては、異なるサンプルが等しい分散を持つと仮定します。これを一般に等分散性と呼びます。Levene検定とBrown-Forsythe検定を使用して、この仮定を検証できます。仮に、k個の応答データサンプルがあるとしましょう。ここで、y_{ij}\,\!j 番目の因子レベル (j = 1, 2, ..., k)における i 番目の観測値 (i = 1, 2, ...n_j) を表します。Levene検定とBrown-Forsythe検定の仮説は次のように表すことができます。

H_0\sigma^2 _1=\sigma^2 _2=\cdots =\sigma^2 _k

H_1:\sigma^2 _p\neq \sigma^2 _q、少なくとも1組 (p, q)に対して、1\leq p,q\leq k

異なる検定に基づいて、Z_{ij}\,\!を以下のように定義します。

  1. 絶対値Levene検定:Z_{ij}=|y_{ij}-\bar y_j|
  2. 二乗Levene検定:Z_{ij}^2=(y_{ij}-\bar y_j)^2
  3. Brown-Forsythe検定:Z_{ij}=|y_{ij}-m_j|\,\!

帰無仮説H_0が成立するとき、検定統計量は

F=\frac{\sum_{j=1}^kn_j(\bar Z_j-\bar Z)^2/(k-1)}{\sum_{j=1}^k\sum_{i=1}^{n_1}(Z_{ij}-\bar Z_j)^2/(n-k)}

F分布F_{(k-1,n-k)}\,\!に従います。ここで\overline{Z_j}および \overline{Z}は、それぞれZ_{ij}\,\! のグループ平均と全体の平均です。

複数平均の比較

二元配置ANOVA実験によって、少なくとも1つの因子レベルの平均が他の因子レベルの平均と統計的に異なることが判明した場合、その後、平均比較を行い、どの因子レベルの平均(または平均群)が有意に異なるかを調べます。Originでは、複数の平均比較のためにさまざまな方法が提供されており、NAG関数nag_anova_confid_interval (g04dbc)を使用して平均比較を実行します。

複数平均の比較方法には、次の2種類があります。

単一ステップ法これは、Tukey-Kramer、Bonferroni、Dunn-Sidak、Fisher’s LSD、Scheffe、Dunnetなど、同時信頼区間を作成して、平均がどのように異なるかを示します。

段階的法Holm-BonferroniおよびHolm-Sidakh法のように、仮説検定を順番に実行します。

検出力解析

検出力分析手順は、サンプルデータの実際の検出力を計算するとともに、追加のサンプルサイズが指定された場合の仮定の検出力も計算します。

二元配置分散分析(ANOVA)の検出力は、その分析の感度を測定するものです。検出力は、実際に母集団の平均に差異が存在する場合に、その差異をANOVAが検出する確率です。帰無仮説と対立仮説に関して言うと、検出力は、実際に帰無仮説が棄却されるべき時に、F検定統計量が極端な値をとって帰無仮説を棄却する確率です(つまり、帰無仮説が真でない場合に棄却される確率)。

Originの二元配置ANOVAダイアログでは、因子Aおよび因子Bの検出力を計算できます。 もし「交互作用」チェックボックスが選択されていれば、Originは交互作用(A*B)についても検出力を計算できます。

検出力は次の式で定義されます。

power=1-probf(f,df,dfe,nc)\,\!

ここで、fは非中央F分布の偏差、dfは分子の自由度、dfeは誤差の自由度、nc = SS/MSEです。 SSはソースAB、またはA * Bの平方和、MSEは誤差の平均平方、dfはソースA、 B、またはA * Bの自由度、dfeは誤差の自由度です。 すべての値(SSMSEdfdfe)はANOVA表から取得されます。probf ()の値はNAG関数nag_prob_non_central_f_dist (g01gdc)を使って取得します。 詳細はNAG文書をご覧ください。

上記は一元配置分散分析の簡単なアルゴリズムの概要です。詳細な数学的な導出については、ユーザーマニュアルおよびNAGドキュメントの該当部分を参照してください。