auditR
データの重複を見つける
仕訳伝票を通査していくにあたって、例えば、同じ伝票番号の伝票が存在しないかどうか調べたい。そのようなときには、duplicated()関数が便利。
duplicated(je$num) # je: 仕訳のデータフレーム num: 仕訳番号
考え方は、仕訳番号を上から順になめていき、ある番号と同じ番号が存在した場合に、TRUEを返す。したがって、初めに出てくる番号はFALSEであり次に同じ番号が出ればTRUEが返ってくるので、TRUEを数えれば重複した伝票番号の件数がわかる。
sum(dupulicated(je$num))
dplyrを使う
ex %>% group_by(id, day) %>% filter(n()>1)
キーとなる項目をグループにして、1を超えるものが重複という方式。
Last updated 2016-05-23 | auditR (c) N.Nawata