# ファイルの読み書き

## 絶対パスと相対パス

一般的なファイル構造

Mac/Linuxの場合

<img src="https://www.yuyashibuya.com/files/studygroup/Day2_path_mac.png" width ="80%" >

Winodowsの場合

<img src="https://www.yuyashibuya.com/files/studygroup/Day2_path_win.png" width ="80%" >

### 絶対パス（absolute path）
- ルートからの道順(パス)を指定する方法
- 厳密なルートで間違いが少ない
- 長くなりがち

* Windowsの例
    * C:¥Users¥username¥Desktop¥Folder1¥test.txt
* Mac/Linuxの例
    * /Users/username/folder1/test.txt

### 相対パス（relative path）
- 基準となるディレクトリ（カレントディレクトリ）からの道順(パス)を指定する方法

`..` で１階層上のディレクトリ、`.`で同じディレクトリ

<img src="https://www.yuyashibuya.com/files/studygroup/Day2_absolute_path.png" width ="80%" >

現在の場所（カレントディレクトリ）は、`%pwd`で確認できます。

In [None]:
%pwd

現在の場所（カレントディレクトリ）にあるファイルをリストアップするためには`%ls`で確認できます。

In [None]:
%ls

## pandasを用いたcsvの読み書き

In [None]:
import numpy as np
import pandas as pd

In [1]:

price = [100, 40, 300, np.nan , 500, 1000, 300, 400, 240, 3000]
num = [5, 2, 1, 0, 4, 200, 7, 19, 20, 100]
datetimes = pd.date_range('20180601', periods=10, freq= '627H')

df = pd.DataFrame({'price':price, 'num': num, 'datetime': datetimes })
df

Unnamed: 0,price,num,datetime
0,100.0,5,2018-06-01 00:00:00
1,40.0,2,2018-06-27 03:00:00
2,300.0,1,2018-07-23 06:00:00
3,,0,2018-08-18 09:00:00
4,500.0,4,2018-09-13 12:00:00
5,1000.0,200,2018-10-09 15:00:00
6,300.0,7,2018-11-04 18:00:00
7,400.0,19,2018-11-30 21:00:00
8,240.0,20,2018-12-27 00:00:00
9,3000.0,100,2019-01-22 03:00:00


In [2]:
df.to_csv('./testcsv.csv')

ちゃんと保存されているか、確認してみましょう。

In [None]:
%ls 

### pandasを用いたcsvの読み込み

保存したcsvファイルをDataFrameとして読み込む

In [3]:
r_df = pd.read_csv('testcsv.csv', index_col = 0)
r_df

Unnamed: 0,price,num,datetime
0,100.0,5,2018-06-01 00:00:00
1,40.0,2,2018-06-27 03:00:00
2,300.0,1,2018-07-23 06:00:00
3,,0,2018-08-18 09:00:00
4,500.0,4,2018-09-13 12:00:00
5,1000.0,200,2018-10-09 15:00:00
6,300.0,7,2018-11-04 18:00:00
7,400.0,19,2018-11-30 21:00:00
8,240.0,20,2018-12-27 00:00:00
9,3000.0,100,2019-01-22 03:00:00


### 参考　pandasを用いた様々なファイル形式の読み書き

`pandas`を用いたcsvの読み書きは以前紹介しましたが、その他の形式のファイルの読み書きもpandasでは行えます。

いくつか代表的なものを紹介します。

> `read_csv`: 区切り文字で区切られたデータを読み込む<br>
> `read_excel`:　ExcelのXLSやXLSXファイルからデータを読み込む<br>
> `read_json`:　JSON(JavaScript Object Notation)の文字列表現からデータを読み込む<br>
> `read_pickle`:　Pythonのpickleバイナリ形式で書き出されたオブジェクトを読み込む<br>

In [None]:
r_df = pd.read_csv('testcsv.csv', index_col = 0)
r_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 250 entries, 0 to 249
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Date    250 non-null    object 
 1   GOOG    250 non-null    float64
 2   AAPL    250 non-null    float64
 3   META    250 non-null    float64
 4   AMZN    250 non-null    float64
 5   NFLX    250 non-null    float64
 6   TSLA    250 non-null    float64
dtypes: float64(6), object(1)
memory usage: 13.8+ KB


In [None]:
r_df.to_pickle('./test.pkl')

In [None]:
r_df_pkl = pd.read_pickle('./test.pkl')
r_df_pkl.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 250 entries, 2022-04-04 to 2023-03-31
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   GOOG    250 non-null    float64
 1   AAPL    250 non-null    float64
 2   META    250 non-null    float64
 3   AMZN    250 non-null    float64
 4   NFLX    250 non-null    float64
 5   TSLA    250 non-null    float64
dtypes: float64(6)
memory usage: 13.7 KB


## pickleの読み書き

In [None]:
import pickle
new_list = [1, 2, 3, 4, 5, 10, 12, 4, 14]

with open('./new_list.pkl','wb') as f:
    pickle.dump(new_list, f)

In [None]:
with open('./new_list.pkl','rb') as f:
    new_list_2 = pickle.load(f)

In [None]:
type(new_list_2)

list

In [None]:
new_list_2

[1, 2, 3, 4, 5, 10, 12, 4, 14]