2012/08/06

文系のための「行列」(2)

さて、「行列」見た目上の形式については、既に述べた。
難しいことは無く、ただ、行方向に属性の項目が並んでいて、
列方向に観測対象ごとの属性値が並んで入るのである。当たり前の話である。

ところで、以前の話では、最後に「多次元データ」という言葉が出てきた。
ここで、「うん?多次元??どういう事?」っと思ってしまうのが文系出身者。
だと思う。「現実世界が三次元で、時間が加わって四次元になって...ド○えもん?」とか。

そういった状況では、とにかく困るのである。分析どころでは無い。
少なくとも、以下の四つの用語については知ってもらわないと困る。

  1. スカラー(Scalar)
  2. ベクトル(Vector)
  3. 行列(Matrix)
  4. 次元(Dimension)
これらの用語を知らないと、統計の教科書も読めないのである。
それ故に、最初の章で挫折していまう人が、残念ながら少なからず存在する。

まず、聞き慣れないけれども、最も簡単なのが「スカラー」。
これは、普段我々が目にする「普通の数」のことである。
100円ショップで売っている「電子卓上計算機(電卓)」で使う数字である。

中学校までに扱う数字は、全て「スカラー」なのである。それだけ。

では、それ以外には?ということで登場するのが「ベクトル」。
簡単に言うと、「スカラー」が並んでいるもの。[1, 3, 5, 7, ...] といった感じ。それだけ。

じゃ、「行列」は?これも簡単。要するに、ベクトルが並んでいるもの。
つまり、次のように並んでいるもの。
| 1, 3, 5 |
| 4, 6, 8 |
| 6, 8, 0 |

気付いてもらえただろうか?
「行列」を「ベクトル」で説明しようとした場合、
縦方向で説明したい場合と、横方向で説明したい場合がある。
ところが、「ベクトル」には、縦横が無い。
そこで、横向きに見たときには「行ベクトル」、
逆に、縦方向に見たときには「列ベクトル」と呼ぶ。

前の例で考えると、各対象ごとでは「行ベクトル」であるし、
特定の属性ごとで見ると「列ベクトル」となる。

なぜ、わざわざ「ベクトル」や「行列」というものが存在するのか?
それは、スカラーに対して、足し算、引き算、かけ算、割り算、
といった演算(いわゆる「四則演算」)があるように、
「ベクトル」と「行列」に対しても、四則演算の方法があって、
これが便利なのである。このことについては、別の所で。

最後に「次元」。「ド○えもん」のポケットのことではない。
次元というのは、ある事象の特徴を「空間」に落とし込むための概念であって、
その空間には、次元数に対応した「軸」が存在する。
したがって、ある事象の特徴というのを図形的に表現することができるのだが、
かならずしも、図形を空間上に表現するとは限らない。

ということで、「人」を例に考えてみる。
そして、「人」は、「体重」、「身長」、「年齢」を「属性」に持っているとする。
すると、「人」の特徴は三次元空間上に投影することができる。
さらに、「体脂肪率」という属性を加えると、次元はどうなるか?
簡単。四次元空間に投影することができる。人の特徴は四次元で表現できる。

したがって、「次元」とは、事象の特徴を「空間」に写像するための「軸」と言える。
より高次元なデータは、低次元なデータと比較して、ディテールを表現している。

「なるほど!では、高次元のデータの方は良いな!」...とはならない。
文系の人が陥りやすい問題。高次元の事象を低次元に落とし込むことが、
ある意味では、定量的な分析の課題なのである。
人間は、せいぜい三次元くらいまでしか、視覚的に直感できないのであるし、
実際には、平面上では、二次元に落とし込まないと解釈できないのである。

ある原則にも関わる。すなわち、「ある事柄を説明するためには、
必要以上に多くの実体を仮定するべきでない」ということである。
これを「オッカムの剃刀」と呼び、統計学にも適用される。

余談ではあるが、「オッカムの剃刀」は、
オッカムのウィリアムという人物が提唱者であり、
ショーン・コネリー主演の「薔薇の名前」の主人公である。
いわゆる、歴史サスペンスであり、中々の名作。私好みの映画であった。

0 件のコメント:

コメントを投稿