{{category package}} {{category rvest}}
! HTMLファイルからテキスト情報を抜き出す
HTMLファイルをオブジェクトとして読み込んで、<p>タグのテキストを抜き出す際に使う。
また、XMLオブジェクトのDIVなどに含まれるHTML記述部分を取り出すときには、一回テキスト変換を通すとうまく行く。
但し、インラインでspanタグが入っていると、改行コードがそのまま残ってしまうので、オプションで、'''trim = TRUE'''を使うと良い。
read_xml(xmlfile) %>%
xml_nodes(xpath = "//hoge") %>%
html_text() %>% read_html() %>%
html_text(trim = TRUE)
{category package}