前回のPython 無料で独習 Pandasとは #01の続きです。
Pandas を !pip install Pands でインストールして
import pandas でインポートまでしました。
Pandasには、
csvファイルを読み込んだり、
Excelのデータを読み込んだり、
列や行の操作をしたり、実際の計算をしたり、
さまざまな機能があるそうです。
そういった機能を実装するために
1920年から2015年までの全国の人口推移のデータ
をダウロードして使用するらしいので
jupyter notbookを保存する同じフォルダーに置きます。
では前回の続きからコードを書いていきます。
import pandas as pd
df_population_data = pd.read_csv('c01.csv',encoding='shift-jis')
df_population_data
都道府県コード 都道府県名 元号 和暦(年) 西暦(年) 注 人口(総数) 人口(男) 人口(女)
0 00 全国 大正 9.0 1920.0 NaN 55963053 28044185 27918868
1 01 北海道 大正 9.0 1920.0 NaN 2359183 1244322 1114861
2 02 青森県 大正 9.0 1920.0 NaN 756454 381293 375161
3 03 岩手県 大正 9.0 1920.0 NaN 845540 421069 424471
4 04 宮城県 大正 9.0 1920.0 NaN 961768 485309 476459
... ... ... ... ... ... ... ... ... ...
977 45 宮崎県 平成 27.0 2015.0 NaN 1104069 519242 584827
978 46 鹿児島県 平成 27.0 2015.0 NaN 1648177 773061 875116
979 47 沖縄県 平成 27.0 2015.0 NaN 1433566 704619 728947
980 1) 沖縄県は調査されなかったため,含まれていない。 NaN NaN NaN NaN NaN NaN NaN NaN
981 2) 長野県西筑摩群山口村と岐阜県中津川市の境界紛争地域人口(男39人,女34人)は全国に含... NaN NaN NaN NaN NaN NaN NaN NaN
982 rows × 9 columns
以前の講義で学習した
Python 無料で独習 022 外部ライブラリ(Pandas)
read_csv関数です。
今回の講義では読み込むファイルがshift-jisとわかっているので
予めencoding='shift-jis'と入力しているそうです。
この部分に関しては今のところよくわかっていません(笑)
type(df_population_data)
pandas.core.frame.DataFrame
pd.set_option('display.max_columns',5)
df_population_data
都道府県コード 都道府県名 ... 人口(男) 人口(女)
0 00 全国 ... 28044185 27918868
1 01 北海道 ... 1244322 1114861
2 02 青森県 ... 381293 375161
3 03 岩手県 ... 421069 424471
4 04 宮城県 ... 485309 476459
... ... ... ... ... ...
977 45 宮崎県 ... 519242 584827
978 46 鹿児島県 ... 773061 875116
979 47 沖縄県 ... 704619 728947
980 1) 沖縄県は調査されなかったため,含まれていない。 NaN ... NaN NaN
981 2) 長野県西筑摩群山口村と岐阜県中津川市の境界紛争地域人口(男39人,女34人)は全国に含... NaN ... NaN NaN
982 rows × 9 columns
データフレームの操作として、
type()関数をつかってデータ型をみたり、
pd.set_option('display.max_columns',5)
で最大表示columを5列にしてみたり、
df_population_data.head()
都道府県コード 都道府県名 ... 人口(男) 人口(女)
0 00 全国 ... 28044185 27918868
1 01 北海道 ... 1244322 1114861
2 02 青森県 ... 381293 375161
3 03 岩手県 ... 421069 424471
4 04 宮城県 ... 485309 476459
5 rows × 9 columns
df_population_data.tail(5)
都道府県コード 都道府県名 ... 人口(男) 人口(女)
977 45 宮崎県 ... 519242 584827
978 46 鹿児島県 ... 773061 875116
979 47 沖縄県 ... 704619 728947
980 1) 沖縄県は調査されなかったため,含まれていない。 NaN ... NaN NaN
981 2) 長野県西筑摩群山口村と岐阜県中津川市の境界紛争地域人口(男39人,女34人)は全国に含... NaN ... NaN NaN
5 rows × 9 columns
頭から5行目までを表示したり、最後から5行表示させたりと
以前の講義で操作した内容をjupyternotebookでも実装可能です。
その他にもデータの情報や使用メモリー数を知る
.info()
や、標準偏差、最大、最小などを一覧できる
.describe()
小数点以下の桁数が多い場合などにまるめる
.describe().round(0)メソッドなどが紹介されています。
ここの機能の細かい部分などは後のレッスンで講義してくださるとのこと。
仕事での業務効率化や、少し興味のあるAIなどでも活用されている
Pandasだけに、この一連の講義でしっかり基礎を身に着けたいと思います。
コメント