相関係数とは?意味・求め方・見方をわかりやすく解説

基礎

データが2つあるとき、

  • 片方が増えると、もう片方も増えるのか
  • 片方が増えると、もう片方は減るのか
  • そもそも関係があるのか

を知りたくなることがあります。

例えば

  • 勉強時間とテストの点数
  • 気温とアイスの売上
  • 広告費とアクセス数

のような組み合わせです。

このような 「2つのデータの関係の強さ」 を表す代表的な指標が 相関係数 です。

この記事では、相関係数が何を表しているのか、なぜあの式になるのか、 そして実際にどう使えばよいのかを順に見ていきます。

1. 相関係数とは何か

相関係数は、一言でいうと

2つのデータがどれくらい同じ向きに動くかを表す数

です。

通常、相関係数は rr で表し、値は

1r1-1 \le r \le 1

の範囲に入ります。

意味は次のように読むのが基本です。

  • rr11 に近い: 強い正の相関
  • rr1-1 に近い: 強い負の相関
  • rr00 に近い: 線形な関係が弱い

例えば、

  • 勉強時間が長いほど点数も高い
  • 身長が高いほど体重も大きい

のような関係なら、正の相関 がありそうです。

逆に、

  • 価格が上がるほど売上個数が減る

のような関係なら、負の相関 がありそうです。

2. 散布図で考える

相関係数を考える前に、2つのデータを平面上に打ってみるとイメージしやすくなります。

例えば横軸を小テストの点数、縦軸を期末テストの点数にすると、 各人のデータは1つの点として表せます。

点が右上がりに並ぶなら、

小テストの点数が高いほど、期末テストの点数も高くなりやすい

と考えられます。

逆に右下がりに並ぶなら、

片方が増えるほど、もう片方が下がりやすい

ということです。

相関係数は、この散布図の「右上がり具合」「右下がり具合」を 数値にしたものだと思うと分かりやすいです。

下の図は、小テストの点数と期末テストの点数の散布図です。 点がだいたい右上がりに並んでいるので、正の相関がありそうだと読み取れます。

3. 式を見てみる

高校や大学初級でよく使う相関係数は、次の式で定義されます。

r=(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2r= \frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}}

ここで

  • xi,yix_i, y_i は各データ
  • xˉ,yˉ\bar{x}, \bar{y} はそれぞれの平均

です。

式だけ見ると少し複雑に見えますが、 中身は次の2段階に分けると理解しやすくなります。

  1. まず「同じ向きに動いているか」を調べる
  2. そのあと、データの大きさの影響を取り除く

この2つを順に見ていきます。

4. なぜ (xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y}) を見るのか

平均からどれだけずれているかを

xixˉ,yiyˉx_i-\bar{x}, \quad y_i-\bar{y}

と書きます。

これは 偏差 と呼ばれます。

この偏差どうしを掛け合わせた

(xixˉ)(yiyˉ)(x_i-\bar{x})(y_i-\bar{y})

を見ると、2つのデータが同じ向きに動いているかが分かります。

1. 両方とも平均より大きいとき

例えば、

  • xixˉ>0x_i-\bar{x} > 0
  • yiyˉ>0y_i-\bar{y} > 0

なら、掛け算の結果は正です。

つまり

両方とも平均より上にある

ので、同じ向きに動いています。

2. 両方とも平均より小さいとき

今度は

  • xixˉ<0x_i-\bar{x} < 0
  • yiyˉ<0y_i-\bar{y} < 0

です。

このときも掛け算の結果は正になります。

これも

両方とも平均より下にある

ので、やはり同じ向きです。

3. 片方だけ平均より大きいとき

例えば

  • xixˉ>0x_i-\bar{x} > 0
  • yiyˉ<0y_i-\bar{y} < 0

なら、掛け算の結果は負になります。

これは、片方が上に行くともう片方が下に行く関係です。

つまり

逆向きに動いている

ことを意味します。

したがって

(xixˉ)(yiyˉ)\sum (x_i-\bar{x})(y_i-\bar{y})

を見れば、

  • 正に大きい: 同じ向きに動きやすい
  • 負に大きい: 逆向きに動きやすい

ということが分かります。

これは 共分散 の元になっている考え方です。

5. なぜそのままではだめなのか

ここで1つ問題があります。

例えば

  • 勉強時間を「時間」で測る
  • それを「分」で測る

とすると、数の大きさが一気に変わります。

でも、データどうしの関係そのものは変わっていないはずです。

ところが

(xixˉ)(yiyˉ)\sum (x_i-\bar{x})(y_i-\bar{y})

だけを見ると、単位やスケールの影響を強く受けてしまいます。

そこで、各データのばらつきの大きさで割って、 単位に依存しない形 に直します。

そのときに使う考え方が標準偏差です。

6. 標準偏差で割る理由

標準偏差は、データが平均のまわりにどれくらい散らばっているかを表す量です。

(xixˉ)2,(yiyˉ)2\sqrt{\sum (x_i-\bar{x})^2},\quad \sqrt{\sum (y_i-\bar{y})^2}

は、厳密には標準偏差そのものではありませんが、 それぞれ xxyy の標準偏差に比例する量になっています。

相関係数では分子と分母で同じ種類の定数倍が打ち消し合うので、 この形で書いても本質は変わりません。

したがって

(xixˉ)(yiyˉ)(xixˉ)2(yiyˉ)2\frac{\sum (x_i-\bar{x})(y_i-\bar{y})} {\sqrt{\sum (x_i-\bar{x})^2}\sqrt{\sum (y_i-\bar{y})^2}}

とすることで、

「同じ向きに動く強さ」を、データのスケールに依らず比較できる形にしている

わけです。

この標準化のおかげで、相関係数は常に

1r1-1 \le r \le 1

の範囲に収まります。

7. 実際に計算してみる

では、次のデータで相関係数を計算してみます。

xx: 小テスト(点)yy: 期末テスト(点)
A4042
B5056
C6051
D7067
E8064

まず平均を求めます。

xˉ=40+50+60+70+805=60\bar{x}=\frac{40+50+60+70+80}{5}=60 yˉ=42+56+51+67+645=56\bar{y}=\frac{42+56+51+67+64}{5}=56

次に偏差を並べます。

xixˉx_i-\bar{x}yiyˉy_i-\bar{y}
A20-2014-14280280
B10-100000
C005-500
D10101111110110
E202088160160

したがって

(xixˉ)(yiyˉ)=550\sum (x_i-\bar{x})(y_i-\bar{y})=550

です。

次に2乗和を計算します。

(xixˉ)2=(20)2+(10)2+02+102+202=1000\sum (x_i-\bar{x})^2 =(-20)^2+(-10)^2+0^2+10^2+20^2 =1000 (yiyˉ)2=(14)2+02+(5)2+112+82=406\sum (y_i-\bar{y})^2 =(-14)^2+0^2+(-5)^2+11^2+8^2 =406

よって

r=55010004060.86r=\frac{550}{\sqrt{1000}\sqrt{406}} \approx 0.86

となります。

これは

はっきりした正の相関がある

と読めます。

つまり、この例では小テストの点数が高い人ほど、期末テストの点数も高い傾向があるわけです。

8. 相関係数の見方

相関係数の値は、一般に次のように読むことが多いです。

  • 11 に近い: 非常に強い正の相関
  • 0.70.7 前後: 比較的強い正の相関
  • 0.30.3 前後: 弱い相関
  • 00 付近: 線形な関係はあまり見えない
  • 1-1 に近い: 非常に強い負の相関

ただし、これは絶対的な基準ではありません。

分野によっては

  • 0.40.4 でも十分意味がある
  • 0.80.8 でもまだ慎重に見る

ということもあります。

大事なのは、数字だけを機械的に読むのではなく、 元のデータや文脈も一緒に見ることです。

9. 相関係数を使うときの注意点

相関係数は便利ですが、誤解しやすい点もあります。

1. 相関がある = 因果関係がある、ではない

例えば、アイスの売上と麦茶の売上に相関があったとしても、 「アイスが売れるから麦茶が売れる」とは限りません。

実際には、

気温が高い

という別の要因が、両方に影響しているかもしれません。

相関係数が教えてくれるのは、

一緒に動く傾向がある

ということまでです。

2. 外れ値に影響されやすい

ほとんどのデータがきれいに並んでいても、 1つだけ極端な値が入ると相関係数はかなり変わります。

そのため、数値だけでなく散布図も一緒に確認するのが基本です。

3. 線形な関係しか見えにくい

相関係数は、基本的に

一直線に近い関係

をどれくらい持っているかを見る指標です。

例えば、きれいな曲線の関係があっても、 相関係数が小さくなることがあります。

10. どんな場面で使うのか

相関係数は、次のような場面でよく使われます。

  • 小テストと期末テストの点数の関係を見る
  • 広告費と売上の関係を見る
  • 身長と体重の関係を見る
  • 気温と商品の売上の関係を見る

まず相関係数で全体の傾向をざっくり確認し、 必要なら散布図や回帰分析に進む、という流れはよくあります。

特に

  • データを見始めた最初の段階
  • 2つの変数の関係を素早く確認したい段階

では、とても使いやすい指標です。

まとめ

相関係数は、

2つのデータがどれくらい同じ向きに動くかを表す数

でした。

ポイントをまとめると、

  • 偏差の積で「同じ向きか逆向きか」を見る
  • 標準偏差で割ってスケールの影響を消す
  • 値は 1-1 から 11 の間に入る
  • 11 に近いほど強い正の相関、1-1 に近いほど強い負の相関
  • ただし、因果関係までは示さない

という流れです。

相関係数は式だけ暗記すると分かりにくいですが、 「偏差の積を見る」「ばらつきで割って標準化する」と考えると、 かなり自然な式に見えてきます。

統計ひろばで相関係数をすぐ試す

ここまで読んで相関係数の意味がつかめたら、 次は実際のデータで試してみるのがおすすめです。

手計算で仕組みを理解することは大事ですが、 データ数が少し増えるだけでも計算はすぐに面倒になります。

統計ひろば では、2列のデータを入力するだけで

  • 相関係数
  • 決定係数
  • 共分散
  • 平均
  • 標準偏差

をまとめて確認できます。

散布図もその場で表示できるので、 数値だけでなくデータの並び方も一緒に見たいときに便利です。

手元にデータがなくても、「サンプルを入れる」を押せばすぐに挙動を試せます。 まずはサンプルで相関係数と散布図の見え方を確認してから、自分のデータに置き換える使い方もできます。

相関係数を手で計算してみると、式の意味がよく見えてきます。 そのうえで実際のデータを素早く処理したいときは、ツールも活用してみてください。

ひろ アイコン ひろ