統計クイズ1(あなたの直感は正しいだろうか) t検定編
統計クイズ(あなたの直感は正しいだろうか)
#t検定の問題
各群10人ずつのデータが有る。
a群のアウトカムは平均10.7
b群のアウトカムは平均15.4であった。
アウトカムは数が大きいほど良いとする。
あなたはb群の方が良いんじゃないかと思っている。
これをt検定した所
## QUIZ
set.seed(1)
a <- rnorm(10, 10, 5.5)
b <- rnorm(10, 14, 5.5)
mean(a)
## [1] 10.73
mean(b)
## [1] 15.37
t.test(a, b, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: a and b
## t = -2.015, df = 16.47, p-value = 0.06047
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -9.5122 0.2291
## sample estimates:
## mean of x mean of y
## 10.73 15.37
P=0.06であり、惜しくも有意差はなかった。
しかし、あと一息で有意差が出そうである。
あなたは黒い統計学者で、不適格のため脱落したがb群で 非常に良いアウトカム100を叩きだしたケースのことを思い出した。
これを,黒いあなたは事後的に組み入れようとした。
さて、新たなP値はいくらになるだろうか、Rを使わずに印象だけで 答えよ。
a群の平均値10.7
b群の平均値15.4
新たなデータを加えた新規b群の平均値23.1
選択肢は5つ
A:P=0.06
B:P=0.04
C:P=0.15
D:P=0.01
E:P<0.001
##答えは下の方にスクロール###
bb <- c(b, 100)
mean(bb)
## [1] 23.06
mean(bb) - mean(a)
## [1] 12.34
mean(b) - mean(a)
## [1] 4.642
t.test(a, bb, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: a and bb
## t = -1.544, df = 10.59, p-value = 0.152
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -30.008 5.337
## sample estimates:
## mean of x mean of y
## 10.73 23.06
答えはCのP=0.15である。
平均値の差は拡大したのにP値はあがった。
100というのは超絶に外れ値である。 t検定は外れ値に対し脆弱である。分散の推定が崩壊するからだ。 超絶な外れ値の存在下では、どうやっても有意差が出ない。 結構Nが大きくても有意差は吹っ飛ぶので面白い。
はたして、印象だけで正しい値が想像できただろうか。
set.seed(1)
a <- rnorm(100, 10, 5.5)
b <- rnorm(100, 14, 5.5)
bb <- c(b, 1000)
mean(a)
## [1] 10.6
mean(b)
## [1] 13.79
mean(bb)
## [1] 23.56
t.test(a, b, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: a and b
## t = -4.421, df = 197.2, p-value = 1.619e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -4.617 -1.769
## sample estimates:
## mean of x mean of y
## 10.60 13.79
t.test(a, bb, var.equal = FALSE)
##
## Welch Two Sample t-test
##
## data: a and bb
## t = -1.323, df = 100.5, p-value = 0.1887
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -32.381 6.466
## sample estimates:
## mean of x mean of y
## 10.60 23.56
上記の例でも、外れ値を入れると、平均値の差はむしろ拡大したのに 有意差がなくなってしまっている。
本日のトリビア t検定は外れ値に弱い!