特異値分解

特異値分解で文書－単語マトリクス（TDマトリクス）を次元削減する。

テキストを形態素解析すると、単語と文書の行列ができる。文書は分析対象なので削除するわけにはいかないが、単語についてはストップワードを除いてもなおたくさんの単語の組み合わせが発生するので、単語の組み合わせから文書の意味を解釈しようとすると困難にぶつかる。

そこでTDマトリクスを次元削減するために、行列の特異値分解をする。

分析対象の行列をつくる

TOP ↑ ↓

> A = matrix(1:18, ncol = 3) # m*n行列
> A
     [,1] [,2] [,3]
[1,]    1    7   13
[2,]    2    8   14
[3,]    3    9   15
[4,]    4   10   16
[5,]    5   11   17
[6,]    6   12   18

特異値分解する（関数で一発！）

TOP ↑ ↓

> svd_A = svd(A)   #特異値分解のR関数
> svd_A
$d   #k個の特異値（ベクトルになっているが、対角行列として扱う）がトピックを表す
[1] 4.580601e+01 3.287752e+00 1.937861e-15

$u   #m*kの行列  → 単語とトピックとの関係
           [,1]       [,2]       [,3]
[1,] -0.3196930  0.6493119 -0.2742669
[2,] -0.3534762  0.4126654  0.7288510
[3,] -0.3872593  0.1760189 -0.5453828
[4,] -0.4210424 -0.0606276  0.1556476
[5,] -0.4548255 -0.2972741 -0.2192166
[6,] -0.4886086 -0.5339206  0.1543676

$v  #k*nの行列  → トピックと文書との関係
           [,1]       [,2]       [,3]
[1,] -0.1981917 -0.8910967  0.4082483
[2,] -0.5158231 -0.2593450 -0.8164966
[3,] -0.8334546  0.3724068  0.4082483

> svd_A$u %*% diag(svd_A$d) %*% t(svd_A$v)  #分解した因子からもとの行列を復元する。
     [,1] [,2] [,3]
[1,]    1    7   13
[2,]    2    8   14
[3,]    3    9   15
[4,]    4   10   16
[5,]    5   11   17
[6,]    6   12   18

上記Aの各列は分析対象の文書であり、行は各文書における行見出しの単語が文書に含まれる数を表す。

出力の解釈

TOP ↑ ↓

> svd_A$u %*% diag(svd_A$d)
          [,1]       [,2]          [,3]
[1,] -14.64386  2.1347763 -5.314911e-16
[2,] -16.19133  1.3567414  1.412412e-15
[3,] -17.73880  0.5787064 -1.056876e-15
[4,] -19.28627 -0.1993285  3.016235e-16
[5,] -20.83374 -0.9773635 -4.248114e-16
[6,] -22.38121 -1.7553984  2.991431e-16

三列目の文書は分析にほとんど影響していない。？？という解釈をしていいのか

> diag(svd_A$d) %*% t(svd_A$v)
              [,1]          [,2]          [,3]
[1,] -9.078371e+00 -2.362780e+01 -3.817723e+01
[2,] -2.929705e+00 -8.526620e-01  1.224381e+00
[3,]  7.911286e-16 -1.582257e-15  7.911286e-16

？？？

Last updated 2019-12-12 | auditR (c) N.Nawata

特異値分解で文書－単語マトリクス（TDマトリクス）を次元削減する。

分析対象の行列をつくる

特異値分解する（関数で一発！）

出力の解釈

Go Top of AuditR

サイト内検索

考察

環境構築編

基本機能編

監査手続編

監査調書作成編

継続監査編

References

学習用データ

更新履歴

管理者ページ