バイオ実験でのサンプル数(検体数・n数・例数・症例数)はどのように決めればよいでしょうか?
細胞実験ならn=3、動物実験ならn=6-8くらいがよく使われるサンプル数だと思います。
ですが、特に根拠がなく「周りがそうしているから」「指導教官にそうしろと言われたから」「これくらいあれば何となく有意差が出そうだから」という理由でnを決めていないでしょうか?
本来、あらかじめサンプル数を決定してから実験を開始すべきです。
ですが、p値が少し大きいからと言って後からnを追加したりしていないでしょうか?
ここでは、対応なしt検定(2群間比較)を行う場合において、統計的有意差を出すために必要なサンプル数をあらかじめ算出する方法を紹介します。
「細胞の場合は普通n=3が多いんだが・・・」というツッコミがあるかと思いますが、それはさておき、まずは少数の予備実験で平均値と標準偏差を見積もります。
標準偏差はエクセルだとSTDEV関数です。
例えばエクセルのA1〜A4セルに個々の測定値を入力したら、「=STDEV(A1:A4)」で算出できます。
このΔが「本実験で検出したい、2群間の差の最小値」です。
本実験でのt検定での2群間の差がΔ以上である場合に、p<0.05で統計的有意差として検出できるだけのサンプル数を見積もるのが今回の目的です。
なお、SDについては、2群の標準偏差をそれぞれS1,S2とすると、「S=(S1+S2)/2」となります。
N=16(SD/Δ)^2 ・・・(1)
「^2」はカッコで囲まれた部分を2乗するという意味です。
また、上記(1)は、有意水準α=0.05、検出力(実際に有意差があるのに有意差がないと判断される可能性)β=0.2という条件での見積もりです。
検出力βを算出根拠に含めていますので、本実験で統計的有意差が出るか出ないか、というギリギリの例数ではなく、ある程度余裕を持たせた例数設計になっています。
また、2群でSDの値が大きく違うときは厳密にいうと(1)の式ではありませんが、そもそもあくまで「概算する」計算式ですので、S1とS2が大きく違っても、上式のとおり行えば、そう大きく外すことはないでしょう。
なお。この結果は「本実験で観察される2群の平均値の差がΔ以上である」と仮定した場合の例数設計です。
ところが、予備実験ではΔであっても、本実験ではΔ未満の可能性もありますし、標準偏差だって予備実験と本実験で同じになるとは限りません。
そこで、検出力βを考慮に入れた例数設計の計算式である(1)をお勧めします。
βを考慮に入れない場合、
N=9(SD/Δ)^2 ・・・(2)
となりますが、この場合、β=0.5となり、有意差を検出できる可能性と検出できない可能性が5分5分となり、本実験を行うには不安なサンプル数だと思います。
例として、マウスの体重を比較する実験を考えます。
予備実験で、対照群の体重の平均値が25g、処置群で30gだったとします。
また、標準偏差(標準誤差ではありません)は、両群とも同じで4gとします。
この場合、
Δ = 30-25 = 5
S = 4
ですから、(1)に代入して
N = 16(4/5)^2 = 10.24
となり、最低でも各群11匹という結果になりました。
動物実験の場合、適当にnを決めていると
「マウスの匹数があと少し多ければ有意差がでたのに〜〜!!」
という悔しい事態も少なからずあります。
この記事を参考にして、有効に例数設計をしてみてくださいね。