- 追加された行はこのように表示されます。
- 削除された行は
このように表示されます。
!散布図を描く
散布図はデータの中の最低2つの項目を縦軸横軸にプロットすることで、2変数の関係性を全体的に眺めることができる。
分析では最初に必ず使いたい。
ggplot2::ggplot(data = df, mapping = aes(x = X, y = Y) + geom_point()
XY軸には通常数値型の項目が来るが、プロットされる点を、曜日とか性別などのカテゴリで分けたい場合には、aes()属性に、colorやshapeを指定すると、色や点の種類で分類できる。
但し、color/shapeのオプションは6種類が上限で、それ以上は警告メッセージが出てくるので、個別に指定する。
+ scale_shape_manual(value = 変数の数) + scale_color_manual(value = 変数の数)
上記で変数を指定する場合、データと望む変数とをリンクさせておかないと、入力した順序で割り当てられてしまい牽強さが落ちる。
上記で変数を指定する場合、データと望む変数とをリンクさせておかないと、入力した順序で割り当てられてしまい牽強さが落ちる。[引用|https://ill-identified.hatenablog.com/entry/2021/07/28/231922]
g + scale_color_manual(
g + scale_color_manual(
values = c(Gentoo = "cyan4", Chinstrap = "purple", Adelie = "darkorange"),
labels = c(Chinstrap = "ヒゲ", Gentoo = "ジェンツー", Adelie = "アデリー")
) + labs(title = "正しく設定できたグラフ", color = "種")
引用:https://ill-identified.hatenablog.com/entry/2021/07/28/231922
! 点をずらす
データ数が増えてくるとプロットする点が重なってしまい、データの多さが実際より少なく表現されてしまう。
このため、正確なプロットよりも少しだけ点をずらすことで対応する。
geom_point(position = "jitter")
なお、これは、
geom_jitter()
でも対応できる。