表計算ソフトとRを用いる場合との比較をして、Rを使うメリットを説明します。 !!データを見ながら直接操作する vs. データの属性を操作する ::表計算ソフト *データ自体を表形式で視覚的に捉えて、セルを参照しながら演算をしていく。 *表のサイズが大きくなる(レコード数が増える、項目が増える。言い換えれば、データ全体を見渡せない。)と急に扱いづらくなる。 *また計算式を変更したい場合など、関連するセルの式をすべて変更せねばならない。 ::R *主としてデータフレームという形式でデータを扱い、「何番目のデータのどの項目」「どの項目のどのような条件に合致した」などの処理を通じてデータを扱っていく。それはデータベースソフトが、データフィールドに条件を指定してデータ処理を進める考え方と似ている。 *もともと、統計という考え方がデータ全体を掴むための方法論であるから、統計処理ソフトであるRは、データ全体を見渡すための方法を提供することに重点があり、肉眼で全体を見渡すこと自体を前提とせず、概念的に把握できるようになっている。 !!作表が見せることを兼ねる vs. 結果とその見せ方は別 ::表計算ソフト *作成される表自体が一つの成果物となることから、表自体の「お化粧」(フォント、着色、レイアウトなど)機能が充実している。 ::R *表作成よりもグラフの作図機能を重視しており、データそれ自体を表で表現することは重視していない。つまりデータはあくまでも素材であって、それを意味のある形のデータに変換する作業と、データをどのように(図で)表現するかという部分とが明確に分けてある。 !!計算過程の見せ方 ::表計算ソフト *計算ロジックを表中(外に出す方法もあるが)に組み込むことが多い。このため、演算アルゴリズムが見えにくい。 ::R *直接演算を加えることも可能だが、関数として独立させて汎用性を持たせる使い方をするのが通例。これがパッケージという形で共用されることで、利用者が広がっている。最大のメリットは、計算過程がスクリプトという形で残せることであり、データが変わっても処理自体は再現可能なことである。 !!データの保存 ::表計算ソフト *作業結果を見た目の通りにファイルに保存される。さらに言えば、表計算ソフトで対応している形式での保存が可能であるが、例えばCSV形式で保存すると作表時に付けられた文字属性などは保存されない。 ::R *元データとこれに対する演算処理、またその結果とが別々に保管される。 *元データから読み込まれてさまざまな演算が加えられても、元データ自体には何も変化が起こらない。すなわち、統計分析ということからすれば、根拠となっているデータはそれ自体として残した上で、演算した結果を別の形で意図して保存する必要がある。 *これはデータと演算過程と処理結果(見せ方)とが別々に保存できるというメリットがあり、監査においてはデータが変化しても同じ演算を適用できるとか、異なった表現方法で処理結果を伝えることができるといったメリットがある。 *つまり分析ノウハウをデータとは切り離して独立で継承できるし、他の類似用途でも活用できることを意味する。