2012/08/21

文系のための「データのバラツキ」(1)

今回、少々、長い。画像やデータが多いということもある。
しかし、今回の話は、最重要。理解できないと、先に進めない。

早速、本題に入る。データの「真ん中」には、様々な定義があった。
一般的なものは、平均中央値最頻値、など。
真ん中」とは何か、を突き詰めることは面白い。
しかし、本ブログの目的は、多次元データ解析。先に進む。

さて、そもそも、データの「真ん中」の話をした理由は、
各々の対象が「真ん中」から離れている度合いを知りたいからであった。
なぜ、そのようなことを知りたいのか?

離れている度合い」によって、対象の「個性の強さを知る」ためである。
ふむ。解ったような、解らないような。では、簡単な質問をする。

対象全体としての「個性」の「バラツキ」は、大きい方が良いか?
それとも、対象全体としての「バラツキ」は、小さい方が良いか?

全体としての「バラツキ」が、小さいということは、
全体として「個性」が「無く」、観察できる視点は限定される。
したがって、答えは、「バラツキ」が大きい方。

何故、そのようなことが言えるのか、
冷静に考えてみれば、簡単に理解することができる。

例えば、教室Aに出席している100人の学生に「将来なりたい職業は?」と質問し、
100人全員が「地方公務員」と回答したとする。

そして、別の教室Bに出席している別の100人に同じ質問をして、
10人が「大学教授」、20人が「弁護士」、20人が「医者」、
30人が「公認会計士」、25人が「起業家」、残り5人が「宇宙飛行士」、
と答えたとする。個性的なクラスである。熱意と野望と夢に満ちている。
できれば、このような個性的なクラスを受け持ちたい。まぁ、良い。次に進む。

さて、教室Aは、全ての学生が「地方公務員」と答えた。夢の無いクラス。
一方、教室Bは、回答が大きく別れた。個性に溢れた夢のあるクラス。
分析対象として、興味が湧いてくるのは明らかに教室Bである。なぜなら、
  • 性別の差は存在するのか?
  • 年齢が微妙に異なっているのではないか?
  • 出身地が影響のではないか?
  • 両親の職業が関係している可能性は?
などなど。バラツキが大きい、すなわち、個性が豊かであるということは
新しい問題を発見する上で重要な手がかりとなる。
それゆえに、データ分析では「バラツキ」が重要となる。

かつて、「ゆとり教育」というものがあった。
あの政策が出てきた理由は「個性豊かたな人間を育む」とか、
たしか、そのような理由であった。評価はともかく、「理念」は間違っていない。

とにかく、分析において「バラツキ」というのは、「個性」の象徴であるので、
「バラツキ」の大きいことは良いことなのである。分析者としては。

では、いよいよ、バラツキについて本格的に考えていく。
とりあえず、平均の話で用いた「魚の卸売価格」のデータを用いて考える。
何度もやってきたので、データの読み込み方は大丈夫であろう。

# Windows と Linux の人は次のコマンド
X <- read.table("clipboard", sep=",", header=TRUE)

# Mac の人は次のコマンド
X <- read.table(pipe("pbpaste") , sep=",", header=TRUE)

以下が、そのデータ。前回のものを再掲しただけ。
データの説明に関しては、平均の話を参照。

Oroshi_Kg, Taka, Naka, Yasu
Tai, 1336, 3150, 1217, 53
Chinu, 226, 630, 513, 105
Sawara, 212, 1575, 1259, 840
Yazu, 4834, 840, 315, 179
Suzuki, 618, 1575, 1146, 525
Akou, 21, 4725, 3129, 1575
Kochi, 28, 2100, 874, 210
Okoze, 28, 5250, 2635, 210
Ainame, 29, 3150, 621, 315
Hage, 1205, 1890, 383, 210
Konoshiro, 21, 2100, 1100, 105
Sayori, 12, 5250, 3916, 1260
Anago, 1637, 2625, 1721, 630
Mebaru, 330, 4200, 1680, 315
Tachiuo, 1211, 2310, 930, 105
Hamo, 1622, 3938, 592, 53
Karei, 41, 6300, 3178, 525
Hirame, 540, 2100, 1496, 210
Aji, 5149, 3150, 789, 210
Saba, 5413, 3675, 625, 53
Ika, 2414, 2888, 1083, 105
Tako, 1844, 1890, 1180, 525
Ebi, 560, 7350, 1420, 525
KurumaEbi, 222, 8925, 6508, 2625
Koiwashi, 1316, 1155, 617, 328
ObaIwashi, 2716, 499, 267, 175
Mentai, 678, 1155, 859, 394
Hamachi, 4772, 998, 632, 105
Isaki, 268, 2625, 1465, 840

では、早速、このデータの「個性」を見てみる。
これまでの説明から、最初に、データの「真ん中」を算出し、
各対象の値からの「離れ具合」を求める。とりあえず、以下を順次実行していく。
今回は、とりあえず「平均」を「真ん中」にして考えることにする。
(実際には、中央値の方が適しているが、その議論はいずれ。)

# ステップ1:データの総数(n)を求める。
n <- nrow(X)

ステップ1は、大丈夫だろう。行数を変数nに代入しているだけ。

# ステップ2:卸売数量の平均を求める。転置が必要。
m <- t(colMeans(X))

colMeans()関数は、行列の列平均を算出してくれた。
便利であるが、数値の部分のみを取り出すには「転置」が必要。
これは、数学的な問題ではなく、Rというコンピュータ言語の仕様の問題

# ステップ3:行列の引き算ができるように、平均値を総数個複製する。
(M <- matrix(rep(m, each=n), nrow=n, ncol=4))

ここでは、新しくrep()関数が登場している。Replicate(複製する)の略。
あるスカラーの値を特定のルールに従って複製することができる。
この場合は、「each = n」つまり「それぞれの値をn回複製する」という意味。
では、変数nには何が入っていたか?確か、行数(対象数)であった。
ここでは、rep()関数は、matrix()関数の中に入っていて、行数はnとなっている。
したがって、元の行列と同じサイズの、平均値が並んだ行列が作られた。

# ステップ4:元の行列から、平均値が複製された行列Mを引き算する。
(A <- X-M)

最後のステップは簡単。単なる行列の引き算。自信が無い人は復習コース
少し複雑だったかもしれない。慣れれば、大したことは無い。

さて、最後の結果は、新しく作られた変数Aに格納されている。
この行列Aの各成分は、各対象について、平均が引かれたものになっている。
この指標が、各対象の「個性」の強さを表しているものであり、「偏差」と呼ぶ。

ここで少し数式も入れる。既にやったことを数式で表現しているにすぎない。



ここで、対象の数は 1 < i < n 個あり、変数は 1 < j < p 個ある。いつもの「np行列」。

まずは、記号の読み方。「X」の上に「」が書いてある。
読み方は「エックス・チルダ」。各成分について「列平均」を引いた行列を表す。
当然、列の数(p個の列)だけ「平均」あるので、列平均を「」のように表現する。

この行列のことを「偏差行列」と呼ぶ。偏差が並んでいる行列頻繁に登場する
元の多次元データから、各対象の「個性」だけの行列に作り替えたものである。

では、偏差行列を用いて何ができるのか?試してみる。

この状況では、少々、観察しにくいので、まずは、可視化してみる。可視化は重要。
今回は、結果を美しく見せるためにちょっとした工夫がしてある。説明は後で


# 卸売数量の可視化
plot(A$Oroshi_Kg, type = "h", xaxt="n", xlab="", main="Oroshi")
abline(h=0)
axis(side=1, at = (1:n), labels = rownames(A), las=2)

# 高値の可視化
plot(A$Taka, type = "h", xaxt="n", xlab="", main="Takane")
abline(h=0)
axis(side=1, at = (1:n), labels = rownames(A), las=2)

# 中値の可視化
plot(A$Naka, type = "h", xaxt="n", xlab="", main="Nakane")
abline(h=0)
axis(side=1, at = (1:n), labels = rownames(A), las=2)

# 安値の可視化
plot(A$Yasu, type = "h", xaxt="n", xlab="", main="Yasune")
abline(h=0)
axis(side=1, at = (1:n), labels = rownames(A), las=2)

まずは、上記のコマンドの説明から。
基本的に、4つの図は同じ方法で作成されている。
plot()関数を使って、基本的な図を書き、
次に、abline()関数を使ってゼロを通る水平線を書いて、
最後に、axis()関数を使って軸ラベルを書いている。
各関数のパラメータを見てみる。
  • plot()関数
    • type: プロットの種類。棒で表示するので「h」。「histogram」の「h」
    • xaxt: この段階では、x軸を描画しないので「n」。「No」 の「n」
    • xlab: 今回は、x軸の軸ラベルを表示しないので空白。
    • main: 図の上に表示させるグラフタイトル。
  • abline()関数
    • h: 水平線を通る線を指定。通る場所は「0」。
  • axis()関数
    • side: ラベルを配置する場所。下に表示するので「1」を指定。
    • at: 対象のラベルを配置する位置。等間隔に「1〜総数個」。
    • labels: 実際に配置する文字列。行列Aの列名を使うので「rownames(A)」。
    • las: ラベルの向き。軸に対して垂直に置くので「2」。
Rでは、様々なパラメータによって図を整える
上記以外にも、パラメータはあるが、今回は必要なもののみ。
余裕がある人は、Rのヘルプを参照すると良い。詳しい説明がある。
例えば、axis()関数のヘルプを参照するには、
コンソール上で、「?axis()」のように、前にハテナマークを付けるだけ。

次に、結果から何を読み取れるかを考えてみる。
基本的なこととして、平均は丁度0を通る水平線となっていて、
この線よりも上に出ているのは、平均値よりも高く、
この線よりも下に出ているのは、平均値よりも低いことを示している。

とりあえず、「車海老」を観察してみる。
車海老は、卸売数量が平均を下回り、高値、中値、安値が平均よりも高い。
したがって、希少価値が高くて、全体的に価格も高いと言える。

」は、卸売数量が平均を上回り、高値、仲値、安値ともに平均以下。
つまり、希少価値は低く、全体的に安いと言える。車海老の逆の傾向

面白いのは「チヌ」。卸売数量は、平均よりも低いが、
高値、中値、安値ともに、平均よりも低い。
マダイなど、他のタイ科よりもクセがあるから、
ニーズが限られるのかもしれない

このように、平均からの離れ具合を見てやると、
それぞれの対象の個性が見えてくる。この感覚が重要である。
今回のデータから、卸売数量と価格の関係を観察したくなるが、
これは、もう少し先の話。もう少し、基礎的な話で我慢する。

さて、今回は、話が長くなる。もう少しの辛抱。
基本的な話は、時して退屈であり、また、そのような話を長々とするのも辛い。

話が逸れた。今度は、全体としての「個性」というのを考えてみる。
全体としての個性というのは、「偏差」を合わせたものと考えることができる。
すでに、「偏差」は変数Aの行列に格納されていた。
これを足しあわせてみるとどうなるか?実行する前に気づいただろうか?
Rでは、列和を次の方法で計算することができる。

colSums(A)

以下は、実行結果。

> colSums(A)
    Oroshi_Kg          Taka          Naka          Yasu
-1.818989e-12  5.002221e-12 -2.501110e-12  0.000000e+00

あれ〜?何かおかしい。若干の誤差があるが、全てが「0」となっている。
なぜか?この場合は、「平均」をデータの「真ん中」にしている。
したがって、偏差の負の側と偏差の正の側を足し合わせると、
結果として、両方を「平(たいら)に均(な)して」しまい、「0」となる。
この方法は、どうやら良くない。では、どうするべきか?

簡単な方法は、最初から、マイナスにならないようにする。
そのような方法は、これまでにやったことがあるだろうか?
思い出してみる。確か、二乗するという方法があった。これを試してみよう。

注意!これから行うのは、行列の計算ではない。行列の「成分の二乗」。

colSums(A^2)

この計算の結果は以下の通り。各列の「二乗和」が計算されている。

> colSums(A^2)
Oroshi_Kg      Taka      Naka      Yasu
 78814194 117904883  49075875   8568607

コンピュータの世界では、べき乗を「^(ハット)」で表す。Rでも同様。
さて、この状況には一つ問題がある。全体の個性を表すことはできているが、
これでは、新しい対象が加わる毎に増えていき、他の状況とは比較できない
例えば、今回のデータの場合、別の日の「卸売価格」との比較ができない。

どうすれば良いのだったか?各対象の数に合致するように、
対象数の単位で基準化するのだった。つまり、対象数の逆数を掛ける。

colSums(A^2/n)

この計算結果は以下の通り。偏差の二乗の平均

> colSums(A^2/n)
Oroshi_Kg      Taka      Naka      Yasu
2717730.8 4065685.6 1692271.6  295469.2

この状況も数式を使って一般化してみる。
この式の見方は、既に、平均の話でしている。省略。



σ」の記号は「シグマ」と呼ぶ。「Σ」の小文字。
二乗和であるため、二乗が付いているこれ重要

この式は、「母分散」と呼ばれる「バラツキ」の指標である。
統計学では、「母集団」と「標本」という考え方がある。
母集団というのは対象の全てであり、標本はその一部。
多くの場合、「母集団」を特定することは困難なので、
標本をとっていることになる。ふむ。そいうものであるのか。

確かに、今回のデータは、色々な意味で「全体の一部」であった。
ところで、全ての魚介類を一つの市場で扱うことは可能なことなのか?

まぁ、それは良いとして、なるほど、「標本」データである。
実は、この場合、母分散の推定値にはならないことが統計学的に証明されている。
実際の標本の分散は、母分散よりも少し大きくなる。

では、どうするべきか?そこで登場するのが「不偏分散」。
何やら、小難しい言葉が出てきた。ここは、我慢が重要。
それほど複雑ではない。以下のように式を変更する。


変更された部分は一箇所のみ。nの逆数を掛けていた部分を、n-1の逆数で掛ける。
そのような調整をしている。実際に計算してみる。

colSums(A^2/(n-1))

以下は、実行結果。

> colSums(A^2/(n-1))
Oroshi_Kg      Taka      Naka      Yasu
2814792.6 4210888.7 1752709.8  306021.7

実を言うと、R には不偏分散を計算するためのvar()関数がある。
では、上の結果とvar()関数の結果とを比較する。以下を実行。

var(X$Oroshi_Kg)
var(X$Taka)
var(X$Naka)
var(X$Yasu)

以下は、実行結果。計算誤差があるが確かに同じ。
このことから、var()関数は、不偏分散を求める関数であることが解る。

> var(X$Oroshi_Kg)
[1] 2814793
> var(X$Taka)
[1] 4210889
> var(X$Naka)
[1] 1752710
> var(X$Yasu)
[1] 306021.7

ところで、「分散」というのは、偏差の二乗の和となっている。
したがって、全体の「バラツキ」を考えると、実は、二乗分だけ多い
これは、少々、不都合なことがある。どのような不都合か?
要するに、元の値や、平均値と比較することができない、という不都合。

元に戻すにはどうすれば良いのか、というのがここでの問題。
すでに実験したように、偏差を足しても「0」となる。
そこで、分散の平方根(ルート)を取ることにする。念のため。

 であり 

平方根というのは、二乗して元に戻るような値のことで、
√(ルート)」という記号によって表したのだった。
Rでは、sqrt()関数というのが用意されているので、これを使う。

sqrt(var(X$Oroshi_Kg))
sqrt(var(X$Taka))
sqrt(var(X$Naka))
sqrt(var(X$Yasu))

そして、以下が実行結果。

> sqrt(var(X$Oroshi_Kg))
[1] 1677.734
> sqrt(var(X$Taka))
[1] 2052.045
> sqrt(var(X$Naka))
[1] 1323.899
> sqrt(var(X$Yasu))
[1] 553.1923

これが、対象数で単位を揃えた偏差の大きさとなる。
つまり、ここで計算された結果は「標準化された偏差」と言える。
一般的には、これを「標準偏差」と呼び、全体としての個性の指標としている。

実は、標準偏差に関しても、Rには関数が用意されている。sd()関数である。

sd(X$Oroshi_Kg)
sd(X$Taka)
sd(X$Naka)
sd(X$Yasu)

いつものように、実行結果を下に。確かに。不偏分散の平方根になっている。

> sd(X$Oroshi_Kg)
[1] 1677.734
> sd(X$Taka)
[1] 2052.045
> sd(X$Naka)
[1] 1323.899
> sd(X$Yasu)
[1] 553.1923

さて、標準偏差に関しても数式で表してみる。慣れが重要。
不偏分散の平方根を取るのだから、難しくはない。



今日の話は長かった。重要なことは以下の3つ。
  • 偏差:平均からの離れている程度
  • 分散:偏差の二乗の和。全体としてのバラツキの指標
  • 標準偏差:分散の平方根をとって、元のデータに合わせた指標。
この3つのことを理解できていれば次の話が解るはず。

10 件のコメント:

  1. 「この式の見方は、既に、平均の話でしている。省略。」の下の、σ^2の式は、1/(n-1)をかけていますが、文脈から察すると、1/nをかけたかったのではないでしょうか?

    返信削除
    返信
    1. コメント、ありがとうございます。修正しました。
      式を貼り付ける際に、間違ったようです。

      削除
  2. ColSums(A)
    の最初のcは小文字でないとだめなのでは?

    返信削除
  3. 『不偏分散」?それとも「普遍分散」?

    返信削除
    返信
    1. これは変換ミスですね。これも修正しました。
      ありがとうございます。

      削除
  4. 目次とページタイトルが異なっていたので修正しました。

    返信削除
  5. 以下の式の中で、"\bar x - x_i"とありますが、"x_i - \bar x"ではないでしょうか?

    \sigma^2=\frac{1}{n}\sum_{i=1}^{n}(\bar x - x_i)^2

    返信削除
    返信
    1. コメントありがとうございます。実は、これは正しいのです。
      というよりも、どちらでも同じことになるので、
      [bar x - x_1] と [x_i - bar x] の何れでも良いことになります。

      重要な点は、後ろの「2乗」の部分です。

      例として、以下のようなベクトルを考えてみます。

      x = {1, 3, 5, 7}

      まず、これの平均「[bar x]」は以下のようになります。

      [bar x] = (1 + 3 + 5 + 7) / 4 = 16/4 = 4

      ここで、いきなり分散を計算したいところですが、
      その前に基本的な事を一つ整理しておきたいと思います。

      そもそも、平均というのは、数を「平(たいら)に均(なら)す」ことです。
      したがって、平均と各値との差の合計というのは、別の見方をすると、
      それぞれの値の差が「全く無い」という言い方もできます。

      上記の場合、「4」が「4」つということなので、
      平均だけで元のデータを表すと、以下のようになります。

      (4 + 4 + 4 + 4) / 4 = 16 / 4 = 4

      この時、各値と平均との差(偏差)の合計は以下のようになります。

      (4-4) + (4-4) + (4-4) + (4-4) = 0

      当たり前の事ですが、当然、合計は「0」になります。
      では、元のベクトルの場合はどうなるのでしょうか?

      平均-元の値:(4-1) + (4-3) + (4-5) + (4-7) = (-3) + (-1) + (+1) + (+3) = 0
      元の値-平均:(1-4) + (3-4) + (5-4) + (7-4) = (+3) + (+1) + (-1) + (-3) = 0

      結局、お互いの値のプラスとマイナスが打ち消し合ってしまい、
      偏差の合計は常に「0」となってしまうのです。
      実は、偏差の合計が「0」がなる部分が「平均」となっているのです。

      これでは、バラツキの大きさが解らないないのです。
      これは困った...ということで、2乗してみると?

      平均-元の値:(4-1)^2 + (4-3)^2 + (4-5)^2 + (4-7)^2 = 9+ 1 + 1 + 9 = 20
      元の値-平均:(1-4)^2 + (3-4)^2 + (5-4)^2 + (7-4)^2 = 9 + 1 + 1+ 9 = 20

      少しだけ、小学校の掛け算のルールを思い出して欲しいのですが、
      掛け算には以下の様な性質がありました。

      (+) x (+) = (+)
      (-) x (-) = (+)

      2乗するということは、元の値同士を書けることなので、
      上記の何れかのルールが適用されることになるのですが、
      結局、マイナスであろうが、プラスであろうが、2乗するとプラスになります。

      したがって、平均と元の値との差を足しあわせた合計と、
      元の値から平均との差を足しあわせた合計は同じになります。

      これを一般的に「偏差」の「2乗(平方)」の「和」ということで
      「偏差平方和」あるいは単に「平方和」と呼びます。

      おな、「偏差は基準(データの真ん中)から元の値までの距離」と考えると、
      [bar x - x_i]と書いた方が、なんとなく、言葉の説明にあってるように思います。

      もちろん、「元の値から基準までの距離が偏差」と考えることもできるので、
      [x_i - bar x] と書くと、そのようなニュアンスで理解することもできます。
      計算結果は同じでも、書き方によって、説明の仕方も何となく変わります。

      削除
  6. 懇切丁寧なご説明をありがとうございます。言われてみれば、おっしゃるとおり。しっかり読ませていただいたつもりでしたが、私の理解がまだ足りなかったようです。少し考えれば分かることでした。もう一度勉強させていただきます。

    返信削除