統計クイズ（あなたの直感は正しいだろうか）

＃ｔ検定の問題

各群10人ずつのデータが有る。

a群のアウトカムは平均10.7

b群のアウトカムは平均15.4であった。

アウトカムは数が大きいほど良いとする。

あなたはｂ群の方が良いんじゃないかと思っている。

これをｔ検定した所

## QUIZ

set.seed(1)

a <- rnorm(10, 10, 5.5)
b <- rnorm(10, 14, 5.5)
mean(a)

## [1] 10.73

mean(b)

## [1] 15.37

t.test(a, b, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  a and b
## t = -2.015, df = 16.47, p-value = 0.06047
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -9.5122  0.2291
## sample estimates:
## mean of x mean of y 
##     10.73     15.37

P=0.06であり、惜しくも有意差はなかった。

しかし、あと一息で有意差が出そうである。

あなたは黒い統計学者で、不適格のため脱落したがｂ群で非常に良いアウトカム100を叩きだしたケースのことを思い出した。

これを,黒いあなたは事後的に組み入れようとした。

さて、新たなP値はいくらになるだろうか、Rを使わずに印象だけで答えよ。

a群の平均値10.7

b群の平均値15.4

新たなデータを加えた新規b群の平均値23.1

選択肢は５つ

A:P=0.06

B:P=0.04

C:P=0.15

D:P=0.01

E:P<0.001


＃＃答えは下の方にスクロール＃＃＃

































bb <- c(b, 100)
mean(bb)

## [1] 23.06

mean(bb) - mean(a)

## [1] 12.34

mean(b) - mean(a)

## [1] 4.642


t.test(a, bb, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  a and bb
## t = -1.544, df = 10.59, p-value = 0.152
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -30.008   5.337
## sample estimates:
## mean of x mean of y 
##     10.73     23.06

答えはCのP=0.15である。

平均値の差は拡大したのにP値はあがった。

100というのは超絶に外れ値である。 t検定は外れ値に対し脆弱である。分散の推定が崩壊するからだ。超絶な外れ値の存在下では、どうやっても有意差が出ない。結構Nが大きくても有意差は吹っ飛ぶので面白い。

はたして、印象だけで正しい値が想像できただろうか。

set.seed(1)

a <- rnorm(100, 10, 5.5)
b <- rnorm(100, 14, 5.5)
bb <- c(b, 1000)
mean(a)

## [1] 10.6

mean(b)

## [1] 13.79

mean(bb)

## [1] 23.56

t.test(a, b, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  a and b
## t = -4.421, df = 197.2, p-value = 1.619e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.617 -1.769
## sample estimates:
## mean of x mean of y 
##     10.60     13.79

t.test(a, bb, var.equal = FALSE)

## 
##  Welch Two Sample t-test
## 
## data:  a and bb
## t = -1.323, df = 100.5, p-value = 0.1887
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -32.381   6.466
## sample estimates:
## mean of x mean of y 
##     10.60     23.56

上記の例でも、外れ値を入れると、平均値の差はむしろ拡大したのに有意差がなくなってしまっている。

本日のトリビア t検定は外れ値に弱い！