{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "# 相関・散布図" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "\n", "相関は、2つの量が関連して変動するかどうかを確かめるための1つの方法です。\n", "\n", "---\n", "\n", "分散は、\n", "\n", "$$\\frac{\\sum_i(x_i-\\bar{X})^2}{n} $$\n", "\n", "でしたが、\n", "2つの変数の方向性を示す方法として共分散があります。\n", "共分散 2つの変数の方向性を示す。\n", "\n", "xとyが同じ方向に動くなら正の値、逆の方向に動く場合は負の値になります。\n", "\n", "共分散は以下のように求められます。\n", "\n", "$$ cov = \\frac{\\sum{(x_i-\\bar{X})(y_i-\\bar{Y})}}{n} $$\n", "\n", "もしくは分母は`n-1`\n", "\n", "---\n", "\n", "\n", "相関係数\n", "数値変数が互いに関連する程度を測った指標です(範囲は-1から+1)。\n", "\n", "ピアソンの積率相関係数\n", "\n", "$ r = \\frac{\\sum(x_i-\\bar{X})(y_i-\\bar{Y})}{\\sqrt{\\sum(x_i-\\bar{X})^2(y_i-\\bar{Y})^2}}$\n", "\n", "この式は、共分散(covariance)\n", "\n", "$ cov = \\frac{\\sum{(x_i-\\bar{X})(y_i-\\bar{Y})}}{n} $\n", "\n", "を、xとyのそれぞれの標準偏差\n", "\n", "$ \\sigma_x = \\sqrt{\\frac{\\sum_i(x_i-\\bar{X})^2}{n}} $, \n", "$ \\sigma_y = \\sqrt{\\frac{\\sum_i(x_i-\\bar{X})^2}{n}} $\n", "\n", "の積で割ったもの($r = \\frac{cov}{\\sigma_x\\sigma_y}$)です。\n", "\n", "---\n", "\n", "相関行列\n", "行と列が変数を表し。セル値が変数間の相関関係を表す表。\n", "\n", "---\n", "\n", "散布図\n", "x軸に変数の値、y軸に別の変数の値をとる図。\n", "\n", "\n", "---\n", "\n", "相関係数と因果関係\n", "ここで注意が必要なのは、相関係数はあくまで統計的傾向であって、必ずしも因果関係ではないということです。\n", "xとyに正の相関があるからといって、xを増やせばyが増えるわけではありません。\n", "\n", "---\n", "\n", "" ] }, { "cell_type": "code", "execution_count": 1, "metadata": { "scrolled": true }, "outputs": [], "source": [ "import pandas as pd\n", "import numpy as np\n", "from matplotlib import pyplot as plt\n", "%matplotlib inline\n" ] }, { "cell_type": "code", "execution_count": null, "metadata": {}, "outputs": [], "source": [ "df = pd.DataFrame({'x': [10, 12, 14, 20, 25, 26, 19, 21, 17, 11, 14, 13],\n", " 'y' :[460, 390, 490, 610, 890, 880, 1200, 1300, 840, 620, 450, 560]})" ] }, { "cell_type": "code", "execution_count": 2, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
xy
count12.00000012.000000
mean16.833333724.166667
std5.373899299.316140
min10.000000390.000000
25%12.750000482.500000
50%15.500000615.000000
75%20.250000882.500000
max26.0000001300.000000
\n", "
" ], "text/plain": [ " x y\n", "count 12.000000 12.000000\n", "mean 16.833333 724.166667\n", "std 5.373899 299.316140\n", "min 10.000000 390.000000\n", "25% 12.750000 482.500000\n", "50% 15.500000 615.000000\n", "75% 20.250000 882.500000\n", "max 26.000000 1300.000000" ] }, "execution_count": 2, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df.describe()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "`.corr()` を使ってピアソンの積立相関係数を求めます。" ] }, { "cell_type": "code", "execution_count": 3, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Pearson Correlation: 0.6764276866627554\n" ] } ], "source": [ "corr_scr = df['x'].corr(df['y'])\n", "print('Pearson Correlation: ', corr_scr)" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "2次元以上のDataFrameへ `.corr()` を使うと相関行列を示すことができます。" ] }, { "cell_type": "code", "execution_count": 4, "metadata": {}, "outputs": [ { "data": { "text/html": [ "
\n", "\n", "\n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", " \n", "
xy
x1.0000000.676428
y0.6764281.000000
\n", "
" ], "text/plain": [ " x y\n", "x 1.000000 0.676428\n", "y 0.676428 1.000000" ] }, "execution_count": 4, "metadata": {}, "output_type": "execute_result" } ], "source": [ "df[['x','y']].corr()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "続いてMatplotlibのscatterを使って散布図を描きます。" ] }, { "cell_type": "code", "execution_count": 5, "metadata": {}, "outputs": [ { "data": { "image/png": "", "text/plain": [ "
" ] }, "metadata": {}, "output_type": "display_data" } ], "source": [ "plt.scatter(df['x'],df['y'])\n", "plt.xlabel('x')\n", "plt.ylabel('y')\n", "plt.title('Scatter Plot')\n", "plt.show()" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "散布図上で右上がりの直線、つまりx軸の値が増えるとy軸の値も増えるような関係(あるいはx軸が減るとy軸も減ると)を正の相関と呼びます。\n", "\n", "右下がりの直線、つまりx軸の値が増えるとy軸の値が減っているような関係を負の相関と呼びます。\n", "\n", "点が直線とは関係なくバラバラに散らばっている場合は相関がないとします。" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.8.16" } }, "nbformat": 4, "nbformat_minor": 4 }