トップ 一覧 検索 ヘルプ RSS ログイン 印刷

html_text()の変更点

  • 追加された行はこのように表示されます。
  • 削除された行はこのように表示されます。
{{category package}} {{category rvest}}

! HTMLファイルからテキスト情報を抜き出す

HTMLファイルをオブジェクトとして読み込んで、<p>タグのテキストを抜き出す際に使う。

また、XMLオブジェクトのDIVなどに含まれるHTML記述部分を取り出すときには、一回テキスト変換を通すとうまく行く。

但し、インラインでspanタグが入っていると、改行コードがそのまま残ってしまうので、オプションで、'''trim = TRUE'''を使うと良い。


 read_xml(xmlfile) %>% 
 xml_nodes(xpath = "//hoge") %>% 
 html_text() %>% read_html() %>% 
 html_text(trim = TRUE)

{category package}