# 平均値・中央値・最頻値

データを代表する値を抽出するために、平均値や中央値、最頻値などが用いられます。




ここからは、次のcellでつくる `pandas`の`DataFrame`に格納したテーブルデータを用いて平均値、中央値、最頻値を求めます。

In [28]:
import pandas as pd 
import numpy as np

Unnamed: 0,price,item_name,number,created_at
0,100,pen,5,2018-06-01 00:00:00
1,400,bread,4,2018-06-27 03:00:00
2,300,brad,1,2018-07-23 06:00:00
3,1000,shirt,0,2018-08-18 09:00:00
4,500,milk,4,2018-09-13 12:00:00
5,1000,T-shirt,200,2018-10-09 15:00:00
6,400,apple,7,2018-11-04 18:00:00
7,400,pen,4,2018-11-30 21:00:00
8,240,banana,20,2018-12-27 00:00:00
9,3000,T-shirt,100,2019-01-22 03:00:00


In [None]:
df = pd.DataFrame({'price':[100, 400, 300, 1000 , 500, 1000, 400, 400, 240, 3000, 800, 2400],
                   'item_name':['pen', 'bread', 'brad', 'shirt', 'milk', 'T-shirt', 'apple', 
                           'pen', 'banana','T-shirt','bread', 'shirt'],
                   'number': [5, 4, 1, 0, 4, 200, 7, 4, 20, 100, 1, 4],
                   'created_at': pd.date_range('20180601', periods=12, freq= '627H') })
df.head(2)

In [29]:
df.dtypes

price                  int64
item_name             object
number                 int64
created_at    datetime64[ns]
dtype: object

## 平均値（mean）

$$\frac{1}{N}\sum_ix_i$$


---

`mean()`は`int` もしくは `float` の型をもつ `Series` へ適用できます。

dfの `price` 列の平均値を計算します。

In [30]:
df['price'].mean()

878.3333333333334

In [31]:
df['number'].mean()

29.166666666666668

`int` 型である`item_name`には適用できないので次のcellはエラーになります。次のmedian()も同様に数値データ以外には適用できません。

In [None]:
df['item_name'].mean()

## 中央値（median）

データを大きさの順に並べたときに全体の中央にある値。つまり最大を取るデータと最小を取るデータのちょうど中間の位置にあるデータ。

`median()`を使ってdfの `price` 列の中央値を計算します。

In [33]:
df['price'].median()

450.0

## 最頻値（mode）

出現回数が最も多い値.

`mode()`dfの `price` 列の中央値を計算します。
[ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mode.html)も参照してください。

In [34]:
df['price'].mode()

0    400
dtype: int64

In [35]:
type(df['price'].mode())

pandas.core.series.Series

最頻値の値のみを抽出したい場合は、上のDataFrameの値を抽出してください。

In [36]:
mode_value = df['price'].mode().iloc[0]

print(mode_value, '\n', type(mode_value))

400 
 <class 'numpy.int64'>


平均値（mean）、中央値（median）、最頻値（mode）の抽出は複数の列にも適用できます。

その場合は、データの型が `int` もしくは `float` の列の結果を返します。

In [58]:
multiple_means = df[['price','number']].mean()
print(multiple_means)

price     878.333333
number     29.166667
dtype: float64


In [60]:
multiple_medians = df[['price','number']].median()
print(multiple_medians)

price     450.0
number      4.0
dtype: float64


In [61]:
multiple_modes = df[['price','number']].mode()
display(multiple_modes)

Unnamed: 0,price,number
0,400,4


上のcellで作った `multiple_modes`のうち `price`の最頻値のみを抽出したい場合は、DataFrame `multiple_modes` の要素を指定します。

In [62]:
num_mode = multiple_modes.loc[0,'number']
print(num_mode)

4
