2012/08/24

文系のための「数の可視化」(1)

ナイチンゲールは、統計学に何をもたらしたのか、今一度、思い出してみる。
重要なことは、統計データの可視化であった。

彼女は、戦場の劣悪な衛生状況が原因で、多くの兵士が感染症で死亡し、
また、その死者数は、戦闘による死者数よりも多いことを知った。
彼女は、その状況を可視化して伝え、可視化された統計データを用いて、
戦場における衛生状況の改善の必要性を説き、当時の政府を説得した。
これが功を奏し、彼女らの提案は受け入れられ、戦場の衛生状況は改善された。

さて、可視化の意味とは何であるか?一言で表現するならば、全体像の抽象化

実は、文章による情報伝達は、実際には効率が悪い
文章は、最初の一文字目から最後の一文字目までが、
一次元の線上に並んでいるようなものであるので、
最後まで読まないと、全体像を把握することができない。

5ページ程度なら良いが、1000ページを超えるレポートならどうか?

なるほど、それでも、文章の方が良いという人もいるかもしれない。
しかしながら、現在のように、情報が超高速で流通している時代に、
そして何より、少子化による極度の人材不足の時代に、
そのような悠長なことは言ってられない。

我々が使える時間は、明らかに、20年前よりも減っている。
「下を探せ」とか「次の世代」などと言う人間には、
理解できないことであろう。

まぁ、良い。とにかく、文章による情報伝達に対して、
グラフィカルな情報は、平面的に表すことができる
文章が一次元なら、グラフィックは二次元の情報と言える。

つまり、全体像を最初から、一瞬で示すことができる。
これこそが、可視化のメリットである。

では、具体的にはどのような方法があるのか?
代表的なものを上げるならば、以下の五種類が一般的であろうか。
  • 棒グラフ
  • 円グラフ
  • 折れ線グラフ
  • 散布図
  • ヒストグラム
上記の5種類のグラフは、用途に合わせて細分化されているし、上記以外のグラフもある。
目的と扱っているデータの種類によって、表現方法は無限に存在し得る

さて、色々と前フリが長くなってしまったが、
グラフを描く上で、最低限、知っておくべきことがある。

グラフィカルな表現は、相手を説得する上で協力なツールとなるが、
その一方で、相手に間違った情報を植え付けるということもあり得る。
実際に、そのようにして、世論を操作する方法もある。
そもそも、グラフを描く上で必要なことは何か、改めて考える余地がある。

さて、今回は、Rでのグラフの描き方について整理してみる。今回は基本だけ。
「共分散」の話で登場した散布図を例に実演してみる。

まずは、読み込み。いつもの作業。


# Windows と Linux の人は次のコマンド
X <- read.table("clipboard", sep=",", header=TRUE)

# Mac の人は次のコマンド
X <- read.table(pipe("pbpaste") , sep=",", header=TRUE)

以下が、そのデータ。前回のものを再掲しただけ。
データの説明に関しては、平均の話を参照。

Oroshi_Kg, Taka, Naka, Yasu
Tai, 1336, 3150, 1217, 53
Chinu, 226, 630, 513, 105
Sawara, 212, 1575, 1259, 840
Yazu, 4834, 840, 315, 179
Suzuki, 618, 1575, 1146, 525
Akou, 21, 4725, 3129, 1575
Kochi, 28, 2100, 874, 210
Okoze, 28, 5250, 2635, 210
Ainame, 29, 3150, 621, 315
Hage, 1205, 1890, 383, 210
Konoshiro, 21, 2100, 1100, 105
Sayori, 12, 5250, 3916, 1260
Anago, 1637, 2625, 1721, 630
Mebaru, 330, 4200, 1680, 315
Tachiuo, 1211, 2310, 930, 105
Hamo, 1622, 3938, 592, 53
Karei, 41, 6300, 3178, 525
Hirame, 540, 2100, 1496, 210
Aji, 5149, 3150, 789, 210
Saba, 5413, 3675, 625, 53
Ika, 2414, 2888, 1083, 105
Tako, 1844, 1890, 1180, 525
Ebi, 560, 7350, 1420, 525
KurumaEbi, 222, 8925, 6508, 2625
Koiwashi, 1316, 1155, 617, 328
ObaIwashi, 2716, 499, 267, 175
Mentai, 678, 1155, 859, 394
Hamachi, 4772, 998, 632, 105
Isaki, 268, 2625, 1465, 840

そして、とりあず、散布図を作成する。散布図とは何か?
たしか、共分散あるいは相関係数に対応する可視化方法であり、
異なる二つの変数間の関係を観察するためのものであった。

卸売数量」と「高値」の関係の基本的なプロットは以下の通り。
plot(X$Oroshi_Kg,X$Taka)

前回までは、詳しく述べなかったが、実は、グラフとして色々と不足している。
まず、このグラフだけでは何のグラフか解らない。やはり、タイトルは必要だろう。

plot(X$Oroshi_Kg,X$Taka)
title(main="卸売数量と高値の関係")

グラフにタイトルが入った。このように、title()関数で、
図にタイトルを入れることができる。
なお、タイトルに関しては、plot()関数でも指定できる。以下は、その例。
結果は、全く同じである。一行で書くのであれば、二つ目の方法となる。


plot(X$Oroshi_Kg, X$Taka, main="卸売数量と高値の関係") 

次に、「x軸ラベル」と「y軸ラベル」を観察してみる。
自動的に付いているが、データを指定した際の名前が自動的に付されていて、
できれば、もう少し、気の利いたラベルを付したい。そこで、以下のようにする。

plot(X$Oroshi_Kg,X$Taka, xlab="卸売数量", ylab="高値", main="卸売数量と高値の関係")

今回は、xlab ylab の二つのパラメータを設定した。これで、見やすい図になってきた。
以上が基本となる。図を作成する際には、タイトルと軸ラベルの調整をすることは重要。

さて、この状態でも、それなりに見やすい図になっているが、
より、見た目を美しい図にするには、どうすれば良いか。以下はセンスの問題。
plot(X$Oroshi_Kg, X$Taka, xlab="卸売数量", ylab="高値", xlim=c(0, 6000), las=1, pch=20, col="red")
grid(col="gray")
text(X$Oroshi_Kg+200, X$Taka + 150, labels=rownames(X), cex=0.5)
title(main="卸売数量と高値の関係")

この例では、plot()関数において、次のパラメータを設定している。
  • xlab: x軸ラベルの名前
  • ylab: y軸ラベルの名前
  • xlim: x軸における値の下限と上限(ylimもある)。
  • las: 軸の値ラベルの描画方向(0~4)で指定。
  • pch: 布置するポイントの記号。20番は塗潰しの丸。
  • col: 布置するポイントの色。今回は、赤色を指定。
さらに、この例では、グリッド線を入れるためのgrid()関数や、
対象名をグラフに布置するめのtext() 関数を用いている。

text()関数に関しては、ポイント記号と重ならないように、
実際のデータよりも、x方向に200、y方向に150、ずらしている。

Rでは、グラフの描き方は非常に多彩であり、様々な図を作成することができる。
もしも、本気でRを用いたいという人は、Rグラフィクスの本を持っていても損は無いだろう。


0 件のコメント:

コメントを投稿