p<0.05だったら「勝ち」なのか?有意差信仰と「当たるまで予言」

p<0.05だったら「勝ち」なのか?有意差信仰と「当たるまで予言」

正しい統計解析、有意差や効果の評価をしていますか?

p<0.05だったら何を言っても良いのですか?
p<0.05なんて、1のゾロ目よりも起こりやすいですよ?
1のゾロ目が出ても直ちにサイコロのイカサマを疑わないのに、いろいろ統計解析して、1つでもp=0.049が出ればドヤ顔するっておかしくないですか?


研究発表や論文を読んでいると、こんな場面に出くわします。
「p<0.05でした。有意差ありです。つまり、この介入は効果があります」


この一言で、まるで勝負が決まったかのような空気になる。
でも、その「勝ち」は本当に間違いなく差があるものなのでしょうか?


統計において「p<0.05」は便利な目安です。
しかし、それを絶対的な境界線として扱ってしまうと、本質を見誤ります。


0.051だと差がない、つまり負け。ガッカリ。
0.049は差があり!勝ち!


でも、このわずかな差に、どれほどの意味があるのか?
たった0.2%の違いですよ?
一度冷静に考えてみる必要があります。


ここで、シンプルな確率の例を出してみます。
サイコロを2個振って「1のぞろ目」が出る確率は、(1/6)×(1/6)=1/36、約2.8%です。
3%未満の、そこそこ珍しい出来事です。


では実際に1のぞろ目が出たとき、「このサイコロはイカサマだ」と断定するでしょうか。
普通はそうは考えません。
「たまたまそういうこともある」と受け止めるはずです。


p<0.0、つまり5%未満というのは、まさにこの「そこそこ珍しいが、普通に起こりうる」レベルの出来事です。


本来は「もしかするとこの2群の平均値には差があるかもしれないね」程度に慎重に扱うべき信号にすぎません。
それなのに、たった一度この値が出ただけで「効果あり」と断言してしまうのは、1回の1のゾロ目でサイコロを疑うのと構造的にはあまり変わりません。
むしろ、1のゾロ目のほうが確率的に低いです・・・


ここで、もう一つよくある誤解にも触れておきましょう。


p値は「この介入が正しい確率」ではありません。あるいは「この結果が本物である確率」でもありません。
あくまで、「差がないと仮定したときに、このようなデータがどれくらい珍しいか」を表しているだけです。


つまり、p<0.049という数字そのものには、「効果の大きさ」も「結果の信頼性」も直接は含まれていません。
それなのに、あたかも「効果の証明」のように扱ってしまうと、解釈は簡単に暴走します。
1回分1万円の健康食品を食べて血圧が1有意に下がったからといって、これ、消費者は買いますか?


しかし、問題はそれだけではありません。むしろ、もっと深刻なのは「過剰な統計」です。


多くの研究では、複数のアウトカムや指標を同時に検討しています。
血液データ、パフォーマンス指標、アンケート、サブグループ解析……こうした複数の「見どころ」を一度にチェックしているわけです。


ここで何が起きるか。


仮に本当はすべての指標で差がなかったとしても、5%という基準で判定している以上、20個の指標を見れば、そのうち1つくらいは偶然p<0.05を満たしてしまう可能性があります。
で、この20個の指標のうち、1つでもp<0.05を満たせば「この介入には効果がある!」とドヤ顔。


・・・この構造、どこかで見覚えがないでしょうか?


たとえば、ある預言者がいたとします。
その人物は、「来年は大地震が起きる」「株価は暴落する」「干ばつが来る」「戦争が起きる」と、ありとあらゆる予言を大量に発信する。
そして1年後、そのうちのどれか一つでも当たったとき、こう言うわけです。


「ほら見ろ、予言は当たる!」


これは説得力があるでしょうか。
冷静に考えれば、「たくさん言えば、どれかは当たるだろう」と感じるはずです。


過剰統計で起きているのは、まさにこれと同じ構図です。
複数の指標を検討し、その中でたまたま有意差が出たものだけを取り上げて「効果があった」と主張する。
そして有意差がなかった指標は無視する。
それは、「当たった予言だけを後から拾い上げている」のと変わりません。


「この介入には効果がない」という1つの帰無仮説を覆すために、勝つまで何回も統計解析をしている、ということです。
3群間の比較で「t検定を繰り返すな!」と偉そうに言っていても、その理由をちゃんと理解せず、ただ天下り的に覚えているだけなので、ちょっと目先が変わっただけで構造が同じである過剰検定をしている人のなんと多いことか!


さらには、これに拍車をかける行動も見られます。
いわゆる「pハッキング」と呼ばれるものです。
解析方法を変えてみる、都合の悪いデータを除外する、サブグループを切り直す。
そうした試行錯誤の中で、たまたまp<0.05を満たす結果が出たところで手を止めてしまう。


「統計方法変えたら何とかならない?」
なんていう考え方、率直に言うと不正ですよ!


これもまた、「当たるまで予言を続ける」のと本質的には同じです。


もちろん、研究者が意図的に不正をしているとは限りません。
むしろ多くの場合は、「良い結果を見つけたい」という自然な心理の延長で起きています。だからこそ厄介なのです。


では、どう考えるべきでしょうか?


まず重要なのは、「結果の一貫性」です。
ある指標だけでなく、関連する複数の指標でも同じ方向の変化が見られるか?
異なる条件やサンプルでも再現されるか?
こうした横のつながりがあるかどうかが、解釈の信頼性を大きく左右します。


次に、「事前仮説の明確さ」です。
後付けで都合のよい指標を選ぶのではなく、あらかじめ「どの指標を見るのか」「どの方向の変化を期待するのか」を決めておく。
いわゆる事前登録(プリレジストレーション)の考え方は、この問題への一つの対策です。


さらに、「効果量」と「信頼区間」にも目を向けるべきです。
たとえ統計的に有意であっても、その差が実務的に意味のある大きさでなければ、解釈には慎重であるべきです。
逆に、有意差が出ていなくても、一定の方向性と妥当な効果量が示されているなら、それは重要な手がかりになります。


また、「1つの帰無仮説を1つの統計解析で検定する」ということですね。
1つの帰無仮説を何回も統計解析し、1回でも有意差が出ればその帰無仮説を棄却するなど言語道断です。


そして何より、「一発で結論を出そうとしないこと」です。


サイコロの公平性を疑うなら、1回ではなく何十回、何百回と振るはずです。
同じように、介入の効果を主張するなら、複数の研究、複数のデータ、複数の検証が必要です。


統計は、本来「不確実性を扱うための道具」です。
しかし現場ではしばしば、「白黒をつけるための判定装置」として使われてしまっています。
この使い方のズレが、「p=0.049でドヤ顔問題」を生んでいます。


たまたま出た一つの有意差に飛びつくのではなく、「それは本当に再現されるのか」「他の指標とも整合しているのか」「そもそも事前に想定していた結果なのか」と問い続ける。
その姿勢こそが、データを扱う者に求められる最低限のリテラシーではないでしょうか。


「当たった予言」だけを拾い集めて満足するのか。
それとも、外れた予言も含めて全体を評価するのか。


その違いが、科学とそれ以外を分ける境界線なのだと思います。