2015年11月12日木曜日

統計的に差があると判断する手順は独特なんだよね「「福島の甲状腺がん50倍」論文に専門家が騒がないわけ(上)」

「福島の甲状腺がん50倍」論文に専門家が騒がないわけ(上)
次に、この論文では南部の「最も線量が低い地域」を1としたとき、他の市の発がん率が何倍上がっているのか、という計算をしており、その値は「近接地域」で1.5倍(95%信頼区間0.63-4.0)、「中間地域」で1.7倍(95%信頼区間0.81-4.1)です。

ここで気をつけなくてはいけないことは、このデータの「95%信頼区間」です。これは、同じような集団を100回検査した時に、95回はこの区間に入りますよ、という値です。もう少し分かりやすく言えば、計算上1.5倍という数値が出ているものの、この数値は0.63倍から4.0倍の間のどの数字であってもおかしくないですよ、という結果です。たとえば同じような集団にもう一回検査をした場合、0.8倍という結果が得られることもあり得るのです。

0.8倍は減っていること、4倍は増えていることを示しますから、95%信頼区間が1をはさんでいた場合には、「増えているとも減っているともいえない」と解釈するのが普通です。

ですからこの数値を見て、「やっぱり増えているじゃないか」と断定するのが間違いであるのと同じように、「やっぱり増えていないじゃないか」と解釈することもまた、間違いだということには注意してください。
あー、これね。統計の考え方って結構独特なんだよね。私も含めて素人が統計の数字を見て
判断をしようとすると誤った判断をしてしまいがちなんだよねぇ。

特に、「統計的に差がある」かどうか、すなわち有意差の判定をする手順が独特なのよ。
詳しくはこの辺の記事を見ておくとなんとなくわかってくるかもしれないけど、
統計でつかう「有意差」
Q1 「統計学的に有意」とは何を意味しているのですか?
例えばA君とB君が10回じゃんけんをしてA君が6回勝ったら、A君の方がじゃんけんが強いと言えるのか、
ということなのよ。我々一般人がよく目にする世界では、A君の方がじゃんけんが強いという判断で
よいわけよ。野球の日本シリーズで7戦して4勝3敗でも4勝したチームの方が強いということでいいわけよ。

でも、統計的にはそう判断をするのはまずいのよ。だって、実はA君とB君のじゃんけんの強さは
同じだけど、たまたまA君が6回勝っただけかもしれないじゃん。

じゃあどうやってA君とB君のじゃんけんの強さに差がある(有意差がある)と統計的に判断をするのか?
それは、中学だか高校の数学でやった背理法を使うのよ。つまり、
(1)二つのデータに差がない(ただの偶然)と仮定する。
(2)それがある低い確率Pでしか起こらない(=偶然とは思えない)ことを示して、(1)の仮定を否定する。

という小々まどろっこしい手順を取る。じゃんけんの例だと、A君とB君の実力差がないと仮定すると、
A君が10回全部勝つ確率は0.09%、9回以上勝つ確率は1%、8回以上勝つ確率は5%、7回以上勝つ
確率は17%、6回以上勝つ確率は37%あるのよ、細かい計算は省くけど。

じゃあ実力が同じでも37%もの確率で発生しうる10回中6回勝つ現象を見て、A君のほうが「統計的に」
強いと判断していいかというとそんなわけないわけよ。感覚的にも実力同じでも6回勝つことは
普通に起こりそうな感じするでしょ?

じゃあ実力が同じ場合に偶然起きることがほぼないラインはどこなのかというと、一般的には5%。
じゃんけんの例で、実力が同じなのにA君が10回中8回以上勝つことはほぼないということ。
だからA君はじゃんけんで10回中8回以上勝てば、そこで初めて「統計的に」B君より強いことが
示されるというわけよ。

この、2つに差はないと最初仮定して、それだとほぼ起き得ない(5%以下)現象が観測されているから、
最初の仮定間違ってるね、2つには差があるねっていう独特の考え方を理解しないでデータを
解釈してしまうと、たまたま起きた50倍の差を事実だと誤って解釈をしてしまうということよ。

まぁ難しいよね。私も書いたところまでしか理解していないから。具体的な計算はあまりできません。