2012/08/06

文系のための「行列」(1)

数値を扱うと色々と比較しやすいことが多い。
そのため、文系研究者であってもコンピュータを使って、
数値を扱った分析を行いたいときがある。

ところが、文系出身者の多くは、データの扱い方をきちんと
学ぶ機会が無く、「見よう見まね」でやってることが多い。
これは良く無い。少しは、知っておいた方が良い。

データ整理で一般的に使われているソフトウェアが「エクセル」である。
何でもエクセルを使おうとする悪癖が蔓延しているが、解りやすく説明するために、
已む無くもエクセルを例に分析のためのデータのことを考えてみることにする。

そもそも…、

エクセルの形式は、一般的には、「スプレッドシート」と呼ばれている。
スプレッドシートが、複数の「シート」から成る「ブック」を
一つの単位として扱っていることは、周知の通りである。


基本的なこととして、スプレッドシートの構造を観察してみると、
一枚の「シート」は、格子状に配置された「セル(cell)」から成っていて、
様々な「値(Value)」は、この一つ一つの「セル」に入力される。

ここで、「セル」を横方向に見た場合には「行(row)」と呼び、
縦方向に見た場合には「列(column)」と呼ぶ。
ここまでが一般的な「スプレッドシート」の話。

大抵の場合、一行目に「ヘッダ(header)」と呼ばれる「項目名」があって、
一列目には、「対象」の名前や識別子(ID)が入っている。
そして、二列目以降には、「項目名」に対応した「属性値(観測値)」が入っている。

このように「行」と「列」によって表されたデータを「行列」データと呼ぶ。
行列」の形式で整理されているデータは良く見かける形式であるし、
無意識にそういったデータを作っている。

ちなみに、一つの「セル」には、一つの「」が入っているべきであり、
良く見かけることではあるが、「セル」の中に複数の値が入っているのは良く無い。
この辺りの話は、いずれ「データベース」の話でするが、ここではこれを前提とする。

次に、「行列」にどような値が入力されているかを考えてみる。
そもそも、分析対象となるデータの一群「データセット」は、
観察対象を「抽象化」したものであって、「属性」は対象の定義である。

行列データでは「対象を行方向」、「属性を列方向」に置くのが通常の形式である。
例えば、観察対象を「」としたデータセットがあったとして、
その「属性」が「年齢」、「身長」、「体重」として定義されていたとする。

この場合には対象が縦方向に「Aさん、Bさん、Cさん・・・」のように並び、
一番上の「ヘッダ」行の項目名に「性別、年齢、身長、体重」といったように
データセットとして入力される。


このような格子状のデータこそが、これから分析をしようとするデータである。
定量的な分析を行う場合には、全ての属性が「数値化」できる必要があって、
そのようになっているデータを「多次元データ」と呼ぶことにする。

0 件のコメント:

コメントを投稿