# Pythonのライブラリ・パッケージ

ここではテーブルデータを扱う上でよく使うライブラリやパッケージを紹介します。

```{note}
Pythonで組込関数以外のライブラリやパッケージを使用する場合には、必ず使う前に`import`する必要があります。
* 例えば、`math`というライブラリを使う場合は、`import math` を実行してからではないと使うことができません。
* `import`はNotebookごとに行ってください。
* ライブラリごとにどのようにimportすべきか慣例があり、そのような慣例に従うことが通例となっています。
    * 例えば、後述する`pandas`は`pd`として読み込むことが慣例となっています。具体的には、`import pandas as pd`とします。
```

ここではデータ分析でよく用いる代表的なライブラリであるNumPy, pandas (次ページ), matplotlib（次々ページ）を取り上げます。

## NumPy

NumpyはNumerical Pythonの略称。行列計算など数値計算で最も基本となるパッケージのひとつです。ここではテーブルデータの探索的分析の基礎部分に必要な箇所に絞って紹介します。

In [None]:
import numpy as np # NumPyは`np`としてimportすることが慣例となっています。

In [None]:
data = np.array([1, 2, 3, 4])
print(data)

[1 2 3 4]


リスト型のように見えますが、type()関数で確認するとndarray型であることが確認できます。

In [None]:
print(type(data) == list)
print(type(data))
print(type([1,2,3,4]) == list)
print(type([1,2,3,4]))

False
<class 'numpy.ndarray'>
True
<class 'list'>


もちろん、リスト型へ相互変換もできます。

In [None]:
list(data)

[1, 2, 3, 4]

NumPyは多次元配列を扱う上で便利です。

In [None]:
data = np.array([[0.1, 0.98, 0.28],
                 [0.548, 0.47, 0.65]])

In [None]:
data

array([[0.1  , 0.98 , 0.28 ],
       [0.548, 0.47 , 0.65 ]])

欠損値は`np.nan`で扱われることが多いです。

`NaN`は`Not a Number`（非数）を意味します。

In [None]:
data1 = np.array([[0.1, np.nan, 0.28],
                 [0.548, 0.47, 0.65]])
print(data1)

[[0.1     nan 0.28 ]
 [0.548 0.47  0.65 ]]


欠損値の確認は`np.isnan`を使えます。

In [None]:
np.isnan(data1)

array([[False,  True, False],
       [False, False, False]])

モジュール`math`を使っても確認できます。 

In [None]:
import math
math.isnan(data1[0,1])

True

```{warning}
NaNは自分との比較はFalseになります（Not a Number（非数）のため）。

* 詳しくはこちらの[NumPyのドキュメント](https://numpy.org/doc/stable/user/misc.html)をご覧ください。

例えば、`==`でNaNを確認しようとすると、想定と異なる結果が得られます（次のセル参照）。
```

In [None]:
data1[0,1] == np.nan

False

### NumPy ndarrayの加減乗除

In [None]:
data = np.array([[0.1, 0.98, 0.28],
                 [0.548, 0.47, 0.65]])

In [None]:
data*10

array([[1.  , 9.8 , 2.8 ],
       [5.48, 4.7 , 6.5 ]])

In [None]:
data+data 

array([[0.2  , 1.96 , 0.56 ],
       [1.096, 0.94 , 1.3  ]])

### Reshape

In [None]:
data.reshape(6)

array([0.1  , 0.98 , 0.28 , 0.548, 0.47 , 0.65 ])

In [None]:
data

array([[0.1  , 0.98 , 0.28 ],
       [0.548, 0.47 , 0.65 ]])

### Slice

Day1で紹介したスライス、スライスの開始位置から終了位置のほか、何個おきに抽出するかも指定できます。`[start:stop:step]`

次のセルの例の場合最初から最後までの値を２つおきに抽出しています。

In [None]:
data.reshape(6)[::2]

array([0.1 , 0.28, 0.47])

次のセルの例の場合2番目から4番目の要素まで２つおきに抽出します。

In [None]:
data.reshape(6)[2:5:2]

array([0.28, 0.47])

2次元のスライスも基本的には一次元の場合と同様に行えます。

In [None]:
data[1:,1:]

array([[0.47, 0.65]])

### 転置行列

In [None]:
data.T

array([[0.1  , 0.548],
       [0.98 , 0.47 ],
       [0.28 , 0.65 ]])

### 内積 $X^TX$ の計算

In [None]:
np.dot(data.T, data)

array([[0.310304, 0.35556 , 0.3842  ],
       [0.35556 , 1.1813  , 0.5799  ],
       [0.3842  , 0.5799  , 0.5009  ]])

### 次元数の確認

In [None]:
data.shape

(2, 3)

### 要素が1や0の配列を生成

In [None]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
np.zeros((2,3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [None]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])