r-statistics-fanの日記

統計好きの現場の臨床医の覚書のようなもの

カレンダープロットで某疾患の某公園の訪問をプロット

f:id:r-statistics-fan:20140905013506j:plainカレンダープロット - 東京で尻を洗う

声優の誕生日のカレンダープロット - 驚異のアニヲタ社会復帰への道

カレンダープロッットが流行しているので、やってみた。

某疾患の某公園の訪問を表示する。複数候補日がある人は、候補日数で割って
重みとする。つまり、1回しか公園に行っておらず候補日1ならば、重み1。
候補日が3日なら重み1/3とする。
本当は、潜伏期の確率分布を使いたかったが、眠いのでやめ。
訪問した日が不明の場合は、潜伏期の期間で一様分布として、重みを付けた。

このデータを手動で入れた。
pdfから、自動で抽出するスキルはまだ無い。

追記:なんだか自動的にGMTに変換されるようだ。日本時間にするため+9時間したら直った。


library(plyr)
library(dplyr)
library(magrittr)
library(openair)
library(tidyr)
library(XLConnect, pos=4)
data = readWorksheetFromFile("hoge.xlsx", 1) 

data  %>% gather(key = d1, value = date, -1:-8, na.rm=TRUE, convert=FALSE) %>%
      mutate(date = as.POSIXct(date, origin =  "1970-01-01 00:00:00 JST")) -> data
ct = count(data, vars="num", wt_var=NULL)
data %>% mutate(wt.d = 1 / ct$freq[num]) -> data
dat2 <- count(data, vars="date", wt_var=NULL)   
for (i in 1:nrow(dat2)){
dat2$wt[i] <- sum(data$wt.d[data$date == dat2$date[i]])
}

calendarPlot(dat2, pollutant = "wt", year = "2014", cols="jet") 

f:id:r-statistics-fan:20140905013506j:plain