相関係数とは?意味・求め方・見方をわかりやすく解説
データが2つあるとき、
- 片方が増えると、もう片方も増えるのか
- 片方が増えると、もう片方は減るのか
- そもそも関係があるのか
を知りたくなることがあります。
例えば
- 勉強時間とテストの点数
- 気温とアイスの売上
- 広告費とアクセス数
のような組み合わせです。
このような 「2つのデータの関係の強さ」 を表す代表的な指標が 相関係数 です。
この記事では、相関係数が何を表しているのか、なぜあの式になるのか、 そして実際にどう使えばよいのかを順に見ていきます。
1. 相関係数とは何か
相関係数は、一言でいうと
2つのデータがどれくらい同じ向きに動くかを表す数
です。
通常、相関係数は で表し、値は
の範囲に入ります。
意味は次のように読むのが基本です。
- が に近い: 強い正の相関
- が に近い: 強い負の相関
- が に近い: 線形な関係が弱い
例えば、
- 勉強時間が長いほど点数も高い
- 身長が高いほど体重も大きい
のような関係なら、正の相関 がありそうです。
逆に、
- 価格が上がるほど売上個数が減る
のような関係なら、負の相関 がありそうです。
2. 散布図で考える
相関係数を考える前に、2つのデータを平面上に打ってみるとイメージしやすくなります。
例えば横軸を小テストの点数、縦軸を期末テストの点数にすると、 各人のデータは1つの点として表せます。
点が右上がりに並ぶなら、
小テストの点数が高いほど、期末テストの点数も高くなりやすい
と考えられます。
逆に右下がりに並ぶなら、
片方が増えるほど、もう片方が下がりやすい
ということです。
相関係数は、この散布図の「右上がり具合」「右下がり具合」を 数値にしたものだと思うと分かりやすいです。
下の図は、小テストの点数と期末テストの点数の散布図です。 点がだいたい右上がりに並んでいるので、正の相関がありそうだと読み取れます。
3. 式を見てみる
高校や大学初級でよく使う相関係数は、次の式で定義されます。
ここで
- は各データ
- はそれぞれの平均
です。
式だけ見ると少し複雑に見えますが、 中身は次の2段階に分けると理解しやすくなります。
- まず「同じ向きに動いているか」を調べる
- そのあと、データの大きさの影響を取り除く
この2つを順に見ていきます。
4. なぜ を見るのか
平均からどれだけずれているかを
と書きます。
これは 偏差 と呼ばれます。
この偏差どうしを掛け合わせた
を見ると、2つのデータが同じ向きに動いているかが分かります。
1. 両方とも平均より大きいとき
例えば、
なら、掛け算の結果は正です。
つまり
両方とも平均より上にある
ので、同じ向きに動いています。
2. 両方とも平均より小さいとき
今度は
です。
このときも掛け算の結果は正になります。
これも
両方とも平均より下にある
ので、やはり同じ向きです。
3. 片方だけ平均より大きいとき
例えば
なら、掛け算の結果は負になります。
これは、片方が上に行くともう片方が下に行く関係です。
つまり
逆向きに動いている
ことを意味します。
したがって
を見れば、
- 正に大きい: 同じ向きに動きやすい
- 負に大きい: 逆向きに動きやすい
ということが分かります。
これは 共分散 の元になっている考え方です。
5. なぜそのままではだめなのか
ここで1つ問題があります。
例えば
- 勉強時間を「時間」で測る
- それを「分」で測る
とすると、数の大きさが一気に変わります。
でも、データどうしの関係そのものは変わっていないはずです。
ところが
だけを見ると、単位やスケールの影響を強く受けてしまいます。
そこで、各データのばらつきの大きさで割って、 単位に依存しない形 に直します。
そのときに使う考え方が標準偏差です。
6. 標準偏差で割る理由
標準偏差は、データが平均のまわりにどれくらい散らばっているかを表す量です。
は、厳密には標準偏差そのものではありませんが、 それぞれ と の標準偏差に比例する量になっています。
相関係数では分子と分母で同じ種類の定数倍が打ち消し合うので、 この形で書いても本質は変わりません。
したがって
とすることで、
「同じ向きに動く強さ」を、データのスケールに依らず比較できる形にしている
わけです。
この標準化のおかげで、相関係数は常に
の範囲に収まります。
7. 実際に計算してみる
では、次のデータで相関係数を計算してみます。
| 人 | : 小テスト(点) | : 期末テスト(点) |
|---|---|---|
| A | 40 | 42 |
| B | 50 | 56 |
| C | 60 | 51 |
| D | 70 | 67 |
| E | 80 | 64 |
まず平均を求めます。
次に偏差を並べます。
| 人 | 積 | ||
|---|---|---|---|
| A | |||
| B | |||
| C | |||
| D | |||
| E |
したがって
です。
次に2乗和を計算します。
よって
となります。
これは
はっきりした正の相関がある
と読めます。
つまり、この例では小テストの点数が高い人ほど、期末テストの点数も高い傾向があるわけです。
8. 相関係数の見方
相関係数の値は、一般に次のように読むことが多いです。
- に近い: 非常に強い正の相関
- 前後: 比較的強い正の相関
- 前後: 弱い相関
- 付近: 線形な関係はあまり見えない
- に近い: 非常に強い負の相関
ただし、これは絶対的な基準ではありません。
分野によっては
- でも十分意味がある
- でもまだ慎重に見る
ということもあります。
大事なのは、数字だけを機械的に読むのではなく、 元のデータや文脈も一緒に見ることです。
9. 相関係数を使うときの注意点
相関係数は便利ですが、誤解しやすい点もあります。
1. 相関がある = 因果関係がある、ではない
例えば、アイスの売上と麦茶の売上に相関があったとしても、 「アイスが売れるから麦茶が売れる」とは限りません。
実際には、
気温が高い
という別の要因が、両方に影響しているかもしれません。
相関係数が教えてくれるのは、
一緒に動く傾向がある
ということまでです。
2. 外れ値に影響されやすい
ほとんどのデータがきれいに並んでいても、 1つだけ極端な値が入ると相関係数はかなり変わります。
そのため、数値だけでなく散布図も一緒に確認するのが基本です。
3. 線形な関係しか見えにくい
相関係数は、基本的に
一直線に近い関係
をどれくらい持っているかを見る指標です。
例えば、きれいな曲線の関係があっても、 相関係数が小さくなることがあります。
10. どんな場面で使うのか
相関係数は、次のような場面でよく使われます。
- 小テストと期末テストの点数の関係を見る
- 広告費と売上の関係を見る
- 身長と体重の関係を見る
- 気温と商品の売上の関係を見る
まず相関係数で全体の傾向をざっくり確認し、 必要なら散布図や回帰分析に進む、という流れはよくあります。
特に
- データを見始めた最初の段階
- 2つの変数の関係を素早く確認したい段階
では、とても使いやすい指標です。
まとめ
相関係数は、
2つのデータがどれくらい同じ向きに動くかを表す数
でした。
ポイントをまとめると、
- 偏差の積で「同じ向きか逆向きか」を見る
- 標準偏差で割ってスケールの影響を消す
- 値は から の間に入る
- に近いほど強い正の相関、 に近いほど強い負の相関
- ただし、因果関係までは示さない
という流れです。
相関係数は式だけ暗記すると分かりにくいですが、 「偏差の積を見る」「ばらつきで割って標準化する」と考えると、 かなり自然な式に見えてきます。
統計ひろばで相関係数をすぐ試す
ここまで読んで相関係数の意味がつかめたら、 次は実際のデータで試してみるのがおすすめです。
手計算で仕組みを理解することは大事ですが、 データ数が少し増えるだけでも計算はすぐに面倒になります。
統計ひろば では、2列のデータを入力するだけで
- 相関係数
- 決定係数
- 共分散
- 平均
- 標準偏差
をまとめて確認できます。
散布図もその場で表示できるので、 数値だけでなくデータの並び方も一緒に見たいときに便利です。
手元にデータがなくても、「サンプルを入れる」を押せばすぐに挙動を試せます。 まずはサンプルで相関係数と散布図の見え方を確認してから、自分のデータに置き換える使い方もできます。
統計ひろばで相関係数を計算する
2列のデータを入力するだけで、相関係数・決定係数・共分散などをまとめて確認できます。手計算で理解したあとに、そのまま実データで試せます。
相関係数の計算ツールを開く →相関係数を手で計算してみると、式の意味がよく見えてきます。 そのうえで実際のデータを素早く処理したいときは、ツールも活用してみてください。