r-statistics-fanの日記

統計好き人間の覚書のようなもの

サンダーの色違い率

てぃぼりさんたちがサンダーの色違いの集計を公開されていた。
これは大変だったと思います。本当に頭が下がります。
https://9db.jp/pokemongo/data/4345

生データが公開されているので早速ダウンロードした。
https://t.co/WCXCE0xFyC?amp=1

ダウンロードした時点では、869 / 8578が色違いでした。

binom::binom.confint(869, 8578, methods = "exact", conf.level = 0.95)

  method   x    n      mean      lower     upper
1  exact 869 8578 0.1013057 0.09499833 0.1078852

色違い率10.13%(95%信頼区間9.5%~10.8%)であり、おそらく10%くらいであろうという結果でした。

更に細かく見ていきます。

Evidenceという項目があります。スクショなどの証拠があるかどうかのようです。
これが有りと無しで率が違うかどうかを計算してみます。

	Pearson's Chi-squared test with Yates' continuity correction

data:  matrix(c(ev1.yes, ev1.no, ev0.yes, ev0.no), nrow = 2)
X-squared = 5.3086, df = 1, p-value = 0.02122

Evidenceあり:10.73%
Evidenceなし:9.16%
P=0.021で有意に率に差がありとなりました。

Evidence無しで率が低くなる原因を探ります
真の色違い率10%として、各レイド数において、実際の報告数の率と理論値との差を表示します。
0.1なら、理論値より10%高いということで、その報告数が多めということになります。
f:id:r-statistics-fan:20180724174716p:plain

色違いゼロの報告が多い気もしますね

同様にEvidence有りで率が高くなる原因を探ります。
f:id:r-statistics-fan:20180724174730p:plain

これは色違いゼロ報告が少なそうですね。
この影響が大きそうです。
まあまあの人が色違いゼロだから画像添付不要としたのでしょうね。

同様に全体で率が隔たっているかみてみます。
f:id:r-statistics-fan:20180724174743p:plain
例度数が少ない領域では、色違いゼロ報告が少なすぎ。
ある程度以上の数だと、バランスが取れている気がしますね。

信頼性が極めて高そうな部分だけ切り出しても大きくは変わらないので、
だいたい10%ということで良いのではないでしょうか。

すばらしいデータでした。