html_text() - auditR

HTMLファイルをオブジェクトとして読み込んで、＜ｐ＞タグのテキストを抜き出す際に使う。

また、XMLオブジェクトのDIVなどに含まれるHTML記述部分を取り出すときには、一回テキスト変換を通すとうまく行く。

但し、インラインでspanタグが入っていると、改行コードがそのまま残ってしまうので、オプションで、trim = TRUEを使うと良い。

read_xml(xmlfile) %>% 
xml_nodes(xpath = "//hoge") %>% 
html_text() %>% read_html() %>% 
html_text(trim = TRUE)

{category package}