# pandas 2

## 条件をつけて行や列を抽出する方法

`loc`は行の名前（ラベル）や列の名前、条件を指定して抽出するために用いることができます。

`iloc`は行や列の番号を指定して抽出することができます。

```{note}
loc iloc の違い 

[参考ページ](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html)

- ilocは基本的に場所を示す整数（0からテーブルの長さ-1まで）で指定することができます。またTrue/Falseでの条件指定もできます。
- locは基本的には場所の名前（label）やで指定することができます。またTrue/Falseでの条件指定もできます。
```

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame({'price':[100, 40, 300, np.nan , 500, 1000, 300, 400, 240, 3000], 
                   'num': [5, 2, 1, 0, 4, 200, 7, 19, 20, 100],
                   'datetime': pd.date_range('20180601', periods=10, freq= '627H') })

priceが100より大きい行のみ抽出します。

In [None]:

df.loc[df['price']>100]

priceが300以上の'price'列のみ抽出します。

In [None]:
df.loc[df['price']>=300, 'price']

複数の条件を指定することもできます。`&`で`AND`条件を指定できます

In [None]:
df.loc[(df['price']>100)&(df['datetime']>'2018-11-01')]

複数の条件をOrで指定することもできます。Orは`|`で示します。

In [None]:
df.loc[(df['price']>100) | (df['datetime']>'2018-11-01')]

次に行や列の番号で抽出する場合です。この場合は、ilocが使えます。

In [None]:
df.iloc[:5, 1]

In [None]:
df.iloc[2,:] #2行目のデータを指定

price                       NaN
num                           0
datetime    2018-08-18 09:00:00
Name: 3, dtype: object

In [None]:
df.loc[2,:] #indexの名前（ラベル）が2のものを抽出

price                       300
num                           1
datetime    2018-07-23 06:00:00
Name: 2, dtype: object

### 一意な値の集合

列の中にあるユニークな値（重複がない値）を確認したい場合は`unique()`で確認できます。
次のDataFrame`fruit`に何種類のフルーツに関するデータがあるか確認します。

In [None]:
fruit = pd.DataFrame({'category': ['banana','orange','apple','apple','orange','orange','apple','apple','apple','banana'],
                      "num_sell" : [100, 40, 30, 30, 40, 100, np.nan, 40, 1, 6],
                      "price" : [100, 130, 80, 150, 70, 75, np.nan, 90, 190, 110],})
fruit

In [None]:
print(fruit['category'].unique())
print(len(fruit['category'].unique()))

一意な値がそれぞれ何個出現しているかを確認するためには、`value_counts()`が便利です。

In [None]:
fruit['category'].value_counts()

In [None]:
type(fruit['category'].value_counts()) #value_counts()はSeriesを返しています

pandas.core.series.Series

### 欠損値の確認　

欠損値の扱いや要約統計量に関する扱いなどは後で改めて詳しく紹介する予定です。

In [None]:
fruit.isnull().sum()

### 要約統計量

要約統計量は`describe`を用いることで一括で確認できます。

In [None]:
fruit.describe()

### Dataframeを値に応じてソートする

`sort_values`を用いて行をソートします。`by`でどの列の値でソートするかを指定します。

defaultではascending（昇順）でソートします。

In [None]:
fruit.sort_values(by = ['num_sell']) 

降順（descending）で表示する場合は、ascending=Falseにします。

In [None]:
fruit.sort_values(by = ['num_sell'], ascending = False) 

複数の列でソートも可能です。

In [None]:
fruit.sort_values(by = ['category','price',], ascending = False) 

### 要素の削除

dropは列や行を指定して削除するメソッドです。

dropだけでは元のDataFrameは変わりません。
`df = df.drop(0)` のように元のDataFrameに再代入するか、`drop`の引数に`inplace =True（defaultはFalse）`を与えると元のDataFrameの指定した行が削除されます。

その他の動作など詳しくは[pandasのドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html)を参照してください。

行の削除を`drop`を用いて行ってみます。

In [None]:

fruit.drop(3)

なお、上の１行だけではfruitそれ自体は変りません。次のようにfruitに代入するとfruit自体の0行目が削除されます

In [None]:
fruit = fruit.drop(0)

列の削除は同様に`drop`を用いて削除する列名を指定し、`axis`を`1`とします

In [None]:
fruit.drop(['num_sell'],axis=1)

上の１行だけではfruitそれ自体は変りません。fruitに代入するとfruit自体の0行目が削除されます

In [None]:
fruit = fruit.drop(['num_sell'],axis=1)

### グループごとの集計などを確認する方法

- `groupby`を用いるとかん単位ぐるーぷごとの集計や計算などが行えます。
- `groupby`と一緒に使えるファンクションとして、sum(), mean(), size()などがあります。自分で任意の関数を作成することもできます。
- 詳細は[pandasのドキュメント](http://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)を確認してください。

In [None]:
fruit.groupby(['category']).sum() #Category別の合計販売個数

In [None]:
fruit.groupby(['category']).mean() #Category別の平均販売個数

In [None]:
# 複数の条件を指定することもできます。
df.loc[(df['price']>100) & (df['datetime']>'2018-11-01')]

Unnamed: 0,price,num,datetime
6,300.0,7,2018-11-04 18:00:00
7,400.0,19,2018-11-30 21:00:00
8,240.0,20,2018-12-27 00:00:00
9,3000.0,100,2019-01-22 03:00:00


In [None]:
# 複数の条件をOrで指定することもできます。Orは`|`で示します。
df.loc[(df['price']>100) | (df['datetime']>'2018-11-01')]

Unnamed: 0,price,num,datetime
2,300.0,1,2018-07-23 06:00:00
4,500.0,4,2018-09-13 12:00:00
5,1000.0,200,2018-10-09 15:00:00
6,300.0,7,2018-11-04 18:00:00
7,400.0,19,2018-11-30 21:00:00
8,240.0,20,2018-12-27 00:00:00
9,3000.0,100,2019-01-22 03:00:00
