!!学習用データ !データリポジトリ 統計も会計も共通して言えることは、実践から学ぶ部分が多分にあるという点だ。かといって、教科書から学ぶものがないというわけではなく、事実たくさんの参考文献が存在する。 データサイエンスがコンピュータを活用なしにはあり得ないが、RにしてもMATLABにしても演習の土台となるデータリポジトリが用意されている(しかも、処理系によらず共通に使える)点は素晴らしいと思う。 例えば *[MIT Machine Learning Repository|http://archive.ics.uci.edu/ml/] *[Data Repositories|http://oad.simmons.edu/oadwiki/Data_repositories] などがある。 Rの本によく使われている「iris」(あやめ)データは、Rに限らずいろいろな統計の教科書でも引用されており、統計を勉強する人が共通の土台に立って話ができるだけでなく、ツールの違いなども比較しやすくなるというメリットがある。 !会計データ しかし会計データは、仕訳データに限らず、借入金、売掛金、売上、棚卸資産などそれぞれに標準的な特性を持ったデータの一群があるべきはずだが、会計を勉強する者がよって立つデータが存在しないのだ。 もとより会計データは実際のデータに事欠かないので、実務家はデータを入手することは可能である。しかし、ノウハウを共有して相互に学習に用いる際には、企業秘密を公にしてしまうことにつながるので不可能である。となれば、手作業とコンピュータ処理の違いを確かめたり、ソフトウェア間の処理の誤りを見つけたりするには、あらかじめ答えの分かっているデータがほしいし、座学と実践とを結びつける「実習」にあたっての標準となるデータの存在は不可欠であろう。 ぜひ会計学習用に皆が共通で使えるような標準的なデータがあってほしい。 !!実際のデータ 会計データの入手は難しいが、社会統計に関するデータや企業データは比較的たくさん公開されているものがある。 !社会統計 :e-Stat:政府による膨大な統計が公表されているサイト。いわゆる「白書」といわれるものの中に掲載されるようなデータだけではなく、その元となるデータも含まれている。 :RESAS:地方自治体に関するデータが公表されている。見た目重視なのか、やや処理が重くなっている点、もう少し簡素な作りにしてもよいのではなかろうか。 !企業データ :EDINET:ご存知、有価証券報告書などの開示書類が登録されている。しかしここのデータはとても扱いづらいので、ここからのデータを扱いやすく加工して二次利用させるためのAPIを公表しているサイト(有報キャッチャーなど)を使ったほうが良い。 :EDGAR:SEC登録会社の財務データがファイリングされているシステム。getFin()関数を使うと、SEC登録会社の財務データを入手できる。日本のEDINETもそういう方式でデータが取れるようにならないものだろうか。