脳内ライブラリアン

脳内ライブラリアン

医療、統計、哲学、育児・教育、音楽など、学んだことを深めて還元するために。

MENU

相関係数とその導出<共分散・ピアソン・スピアマン・ケンドール>【統計検定1級対策】

今回の記事ではピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数について、それぞれまとめて、式の導出と解釈を中心に説明します。

 

以前の記事と統合しつつ、追記しました。

相関係数①<共分散~ピアソンの相関係数まで>【統計検定1級対策】

相関係数②<スピアマンの順位相関係数の導出をわかりやすく>【統計検定1級対策】

 

目次:

 

相関係数とは何か?

そもそも、相関係数とは何なのか。相関係数は2つの確率変数どうしの関係性を示す数値です。

 

例えば、収縮期血圧と体重で考えるなら、色んな人から体重と収縮期血圧のデータの組み合わせをとってきます。そして、体重が増えるほど血圧が上がるのかどうかを、相関係数を使って調べます。(おそらく増えそうですね)

 

相関係数にはいろいろ種類がありますが、原則として

相関係数=0は無相関、相関がないことをしめす

■-1≦相関係数≦1の範囲におさまる

相関係数が+であれば正の相関(体重が増えれば血圧が増える)、-であれば負の相関(体重が減ると血圧が増える)を示す 

 

といったことが挙げられます。

 

では、具体的な相関係数にはどういったものがあるか。ピアソンの相関係数、スピアマンの順位相関係数、ケンドールの順位相関係数の3つを紹介していきます。

 

とその前に、式を理解するうえでは必要な共分散について簡単に触れておきます。

 

共分散の定義と式変形

相関係数を出すのに必要な共分散について、まず見直してみます。

 

共分散の意味とかはコチラなどをみて頂いたほうが分かりやすいかと思います。

共分散の意味と簡単な求め方 | 高校数学の美しい物語

 

ある確率変数XとYの共分散Cov(X,Y)は以下の式で定義されます。

 

Cov(X, Y)=E[(X-E(X))(Y-E(Y))]

 

これが定義式です。変形した形の方が使いやすいので、以下の形を使うことも多いです。後でまた出てきます。

 

Cov(X, Y)=E[(X-E(X))(Y-E(Y))]\\=E[XY+XE(Y)-YE(X)+E(X)E(Y)]\\=E[XY]-E(X)E(Y)-E(Y)E(X)+E(X)E(Y)\\=E[XY]-E[X]E[Y]

 

ちなみに上で述べたようにXとYが無相関である場合(全然関連がない)は、最後の式変形でみるとE[XY]=E[X]E[Y]となるので、Cov(X, Y)=0となります。

 

ピアソンの相関係数

まずはピアソンの相関係数の式をみていきます。

 

ピアソンの相関係数とはパラメトリックな分布をとる(正規分布に従う)連続変数どうしの関連性を見る際に使われる相関係数です。ただ、「相関係数」と言う場合もこれを指します。

 

式としては分子に共分散、分母にそれぞれの標準偏差を持ってきます。

 

具体的な式として書くと

 

r=\frac{Cov(X,Y)}{\sigma_x\sigma_y}\\=\frac{Cov(X,Y)}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}

 

となります。

 

先ほど書いたように無相関のときCov(X,Y)=0なので相関係数も0となることが分かります。

 

またコーシーシュワルツの式↓を使うと

\sum_{i=1}^n(a_ib_i)^2\leq\sum_{i=1}^n a_i^2\sum_{i=1}^n b_i^2

以下の関係式が導き出せます。

Cov(X,Y)=\{E[(X-E(X))(Y-E(Y))]\}^2\leq E[(X-E(X))^2]E[(Y-E(Y))^2]

 

よってピアソンの相関係数は常に(分子の2乗)≦(分母の2乗)となるので-1~1の範囲に収まることが分かります。

 

あとは蛇足ですが、統計検定の問題に関わる話なので、ここからは特に興味がない方は読み飛ばしてもらって良いです。

 

標準偏差をnで割るか、n-1で割るか問題

統計検定の問題を解くうえでの注意事項は、分子の標準偏差をnで割るかn-1で割るかということ。n-1で割る場合は不偏分散ですが、nで割る場合は標本分散です。

 

この式はnで割ったものを提示しています。というのも上記の式の共分散の定義は、期待値を用いている(期待値はnで割っている)ことから分かるように、標本分散と同様にnで割ったものだからです。

 

実際、分子分母間で統一されていれば、結局全部約分されるので、nでもn-1でもどちらでも同じです。ただ両方で統一しなければいけません。

 

スピアマンの順位相関係数

スピアマンの順位相関係数とは、ノンパラメトリックな2変数に対して、相関関係を示す場合に使われる相関係数です。

 

ピアソンの相関係数はY=aX+bのような線形モデルに対しての相関に使えますが、非線形モデル(Y=X^2とか)でありつつも、相関のあるものに対してはスピアマンの相関係数が良いと言えます。

 

式としてはn組の(X,Y)のデータに対して

\rho=1-\frac{6}{n(n^2-1)}\sum_{i=1}^n(X_i-Y_i)^2

となります。

 

統計検定1級の教本では式まで触れられておらず、どこまで出るのか怪しいところですが、、、理解はしやすいものなので、式の導出を考えてみようと思います。

 

やっていることは単純で、まずは確率変数X, Yを1位~n位まで順位データに変換します。具体的な例でみてみるとこのような変換をします。

f:id:medibook:20200828051736j:plain

あとは、実はこの順位データを直接ピアソンの相関係数の式にあてはめるだけなんですが、、、結構面倒です。

 

前回使ったピアソンの相関係数の式をみてみます。

r=\frac{Cov(X,Y)}{\sigma_x\sigma_y}\\=\frac{Cov(X,Y)}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}

このままだと代入しにくいので、もう少し分かりやすく変形してみます。

 

まず、分子は共分散の式を用いて

Cov(X,Y)=E[XY]-E[X]E[Y]

となるので

r=\frac{E[XY]-E[X]E[Y]}{\sqrt{\frac{1}{n}\sum(X_i-E[X])^2}\sqrt{\frac{1}{n}\sum(Y_i-E[Y])^2}}\\=\frac{\sum X_iY_i-nE[X]E[Y]}{{\sqrt{\sum(X_i-E[X])^2\sum(Y_i-E[Y])^2}}}・・・①

と変形できます。

 

さて、次にこの中で求められる数値を準備します。

XやYの期待値は順位の総和をnで割れば得られるので

E[X]=E[Y]=\frac{1}{n}\sum_{i=1}^ni=\frac{n+1}{2}

となります。

f:id:medibook:20200828052325j:plain

先ほどの具体的な順位データの例をみながら想像すると分かりやすいのですが\sum X_i^2, \sum Y_i^2は1~nまでの二乗和になるので

\sum X_i^2=\sum Y_i^2\\=\sum i^2\\=\frac{1}{6}n(n+1)(2n+1)

となります。

 

スピアマンの相関係数の式をみてみると

\sum(X_i-Y_i)^2

という形があることがわかります。

 

なので、これをうまいこと作り出す準備をします。

\sum(X_i-Y_i)^2=\sum X_i^2+\sum Y_i^2-2\sum X_iY_i\\\sum X_iY_i=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2

こう変形できます。

 

必要なものを再度まとめ直すと

E[X]=E[Y]=\frac{1}{n}\sum_{i=1}^ni=\frac{n+1}{2}

 

\sum X_i^2=\sum Y_i^2\\=\sum i^2\\=\frac{1}{6}n(n+1)(2n+1)

 

\sum X_iY_i=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2

 

の3つです。

 

あとは①の式の分子と分母についてそれぞれ見ていきます。

 

まず分母については、展開をして

\sqrt{\sum(X_i-E[X])^2\sum(Y_i-E[Y])^2}\\=\sqrt{\sum(X_i^2-E[X]^2)\sum(Y_i^2-E[Y]^2)}\\=\sum(X_i^2-E[X]^2)\\=\sum X_i^2-nE[X]^2\\=\frac{1}{6}n(n+1)(2n+1)-\frac{1}{4}n(n+1)^2\\=\frac{1}{12}(n^3-n)

となります。

 

続いて分子は

\sum X_iY_i-nE[X]E[Y]\\=\frac{1}{2}(\sum X_i^2+\sum Y_i^2)-\frac{1}{2}\sum(X_i-Y_i)^2-\frac{1}{4}n(n+1)^2\\=\frac{1}{6}n(n+1)(2n+1)-\frac{1}{4}n(n+1)^2-\frac{1}{2}\sum(X_i-Y_i)^2\\=\frac{1}{12}(n^3-n)-\frac{1}{2}\sum(X_i-Y_i)^2

 

分母と分子を合体させると

\frac{\frac{1}{12}(n^3-n)-\frac{1}{2}\sum(X_i-Y_i)^2}{\frac{1}{12}(n^3-n)}=1-\frac{6}{(n^3-n)}\sum_{i=1}^n(X_i-Y_i)^2

 

これで最初の式

\rho=1-\frac{6}{n(n^2-1)}\sum_{i=1}^n(x_i-y_i)^2

が得られました。

 

(2021.02.23式の変形を追記しました。途中の式どころか、相関係数の式まで間違って書いてありました、すみません。)

 

ケンドールの順位相関係数

最後に紹介するのはケンドールの順位相関係数です。

 

これもスピアマンと同様にノンパラメトリックな確率変数どうしを扱う場合の方法となります。

 

スピアマンの相関係数でやっていたことは

「数値データを順位データに変換」→「そのままピアソンの相関係数の式に当てはめる」ということでしたが、ケンドールはもう少し違う方法をとります。

 

イメージとしてはアナログに総当たりさせて、X,Yの順位の相関性をみます。

 

まずはスピアマンと同様に順位データを考えます。例えば、先ほどのこのデータで考えてみましょう。

f:id:medibook:20200828053651j:plain

まずX=5位とX=4位のデータの順位の差をみたときに

Xの差=5-4=1であり、Yの差=5-1=4、とそれぞれのデータの大小関係が一致しています。正の相関がありそう、という推測に繋がります。

 

ところが、X=4位とX=3位を比べてみると

Xの差=4-3=1であり、Yの差=1-4=-3となってしまうため、データの大小関係がXとYで逆転しています。これは負の相関がありそう、という推測に繋がります。

 

これらをすべてのデータの組み合わせで総当たりでさせて、どちらの傾向が大きいのかを数値化したのがケンドールの順位相関係数です。

 

上記の一つ目の例のように、XとYの大小関係が一致するデータを順方向、二つ目の例のように一致しないデータを逆方向と呼び、その差を分子にもってきて、式を作ります。

 

よって、式としては、総データ数をnとして

 

τ=(順方向データの数)ー(逆方向データ数)/_nC_2

 

と言うことになります。数学的な式で書くと、定義関数I(カッコ内の条件を満たせば1、満たさない場合は0とする関数)を用いて以下の式になります。

 

\tau=\frac{\{\sum_{i\lt j}I\{(x_i-x_j)(y_i-y_j)\gt0\}-\{\sum_{i\lt j}I\{(x_i-x_j)(y_i-y_j)\lt0\}}{_nC_2}

 

無相関の場合、順方向・逆方向のデータ数は一致すると思われるので、0となります。また、順方向・逆方向ともに上限値はnとなるので-1~1の範囲で相関係数は動きます。

 

ケンドールの順位相関係数の分散

超長い蛇足すぎたので、別記事にしました。興味のある方はどうぞ。

medibook.hatenablog.com

 

スピアマンの順位相関係数とケンドールの順位相関係数の使い分け

ピアソン相関係数でもそうですが、スピアマンの順位相関係数も有意性の検定を行うこともできます。方法はいくつかあるようで、サンプル数がある程度ある場合(10以上くらい)t分布、正規分布などへの近似を使うことが多いようです。

 

ただ『統計検定1級対応 統計学』によると、サンプル数が少ない場合は正規分布への近似がイマイチなようで、そういう場合はケンドールの順位相関係数を使うようです。あまり細かな使い分けは一般的にはないとされています。

 

 

参考文献: 

ケンドールの順位相関係数 | 高校数学の美しい物語

統計のみならず、数学的な事項について分かりやすくまとめてあります。

スピアマンの順位相関係数 統計学入門

参考にさせていただきました、、、が途中の式が若干間違っていました。

 

検定の教本です。各事項がコンパクトすぎるのでノンパラの相関係数について触れられているのは、2ページほどです。