r-statistics-fanの日記

統計好き人間の覚書のようなもの

サンダーの色違い率:解析その2

てぃぼりさんたちがサンダーの色違いの集計を公開されていた。
これは大変だったと思います。本当に頭が下がります。
https://9db.jp/pokemongo/data/4345

生データが公開されているので早速ダウンロードした。
https://t.co/WCXCE0xFyC?amp=1

前回
サンダーの色違い率 - r-statistics-fanの日記
の記事の後思いついた解析を追加してみます

まずは報告されたレイド数の分布
f:id:r-statistics-fan:20180725231134p:plain

5-6回の山は当日5つ、前日の繰越1つの合計6つの無料パス完全消費勢ですね。
25の山は、普通に捕獲しながら3時間回るとこのくらいになる人が多かったのでしょう。

あと気になるのは、一部で言われている、場所と個人IDが色違い判定に使われており、場所が悪いと色違いは全然出ないし、良いと異常に捕獲できる説。
もしそうなら、理論値と比べて低すぎる勢と高すぎる勢が多数見られるはずです。そして全体では理論値になると。
報告された捕獲率と、理論値と比較してみます。理論値は100000回のモンテカルロシミュレーションで計算しています。これは、完全にランダムに10%の確率で色違いをゲットできた場合の、今回の各個人のレイド数での捕獲率の分布となります。1回しかしない人は0%か100%ですし、2回の人は0.50.100%ですし、人数分の捕獲率をマゼマゼした感じですね。
f:id:r-statistics-fan:20180725231856p:plain

赤が今回の報告。青がシミュレーションによる理論値です。
捕獲率0のあたりが理論値より目立って報告が多いですね。
捕獲率が高い領域でも少し理論値より報告が多いようです。
しかし、この程度だと、報告バイアスなのか分からないですね。1匹も取れなかった人が悔しくて多く報告したのかもしれません。たくさん取れた人が嬉しくて報告するのは十分考えられます。報告バイアスなのか、仕様なのかはわからないけど、色違い捕獲率が極端に低かったり高くなりうる仕様の可能性は残るとしておきましょう。

P値の分布についても計算してみます。二項分布なので離散値になり、p値は一様分布になりません。なので、これもモンテカルロシミュレーションでPの分布の理論値を計算します。2項分布より不正確だけど、よりなめらかな分布になると思われる、χ2乗検定のP値も一応計算します。

f:id:r-statistics-fan:20180725233804p:plain

二項検定でもχ二乗検定でも、P値は理論値よりも小さめになっているようです。(離散値なのでt検定などのように赤線に一致せず、階段状の曲線が混合されたものになります。)

P<0.1の領域を拡大してみます
f:id:r-statistics-fan:20180725234345p:plain
赤線より上に行っていますので、かなりP値が低めに隔たっているとわかります。シミュレーションから計算されるP値の分布からは更に乖離がひどい。極端に当たったり、極端に外れたりする例が多いことが示唆されます。
報告バイアスなのか、仕様なのか。

区別するためには正式にレジストレーションをして参加者に全例報告させるプロスペクティブスタディーが必要ですね。