康煕部首

漢字のようで漢字ではない康煕部首

「こうきぶしゅ」と読むらしい。

時々、テキストを読んでいると特定の文字だけがサイズが違っていたりするのはこれのせいだったかも。

テキストマイニングには邪魔者なので正当な文字に置き換える必要がある。

Rで康煕部首を取り除いて元の漢字に変換するツールは、@uriboさんのzipanguパッケージに入っているツールが便利。

zipangu::str_jnormalize()