Python 無料で独習 Pandasとは Pandas入門03#02

Python
この記事は約5分で読めます。

前回のPython 無料で独習 Pandasとは #01の続きです。
Pandas を !pip install Pands でインストールして
import pandas でインポートまでしました。

Pandasには、
csvファイルを読み込んだり、
Excelのデータを読み込んだり、
列や行の操作をしたり、実際の計算をしたり、
さまざまな機能があるそうです。

そういった機能を実装するために
1920年から2015年までの全国の人口推移のデータ
をダウロードして使用するらしいので
jupyter notbookを保存する同じフォルダーに置きます。

では前回の続きからコードを書いていきます。

import pandas as pd
df_population_data = pd.read_csv('c01.csv',encoding='shift-jis')
df_population_data
	都道府県コード	都道府県名	元号	和暦(年)	西暦(年)	注	人口(総数)	人口(男)	人口(女)
0	00	全国	大正	9.0	1920.0	NaN	55963053	28044185	27918868
1	01	北海道	大正	9.0	1920.0	NaN	2359183	1244322	1114861
2	02	青森県	大正	9.0	1920.0	NaN	756454	381293	375161
3	03	岩手県	大正	9.0	1920.0	NaN	845540	421069	424471
4	04	宮城県	大正	9.0	1920.0	NaN	961768	485309	476459
...	...	...	...	...	...	...	...	...	...
977	45	宮崎県	平成	27.0	2015.0	NaN	1104069	519242	584827
978	46	鹿児島県	平成	27.0	2015.0	NaN	1648177	773061	875116
979	47	沖縄県	平成	27.0	2015.0	NaN	1433566	704619	728947
980	1) 沖縄県は調査されなかったため,含まれていない。	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
981	2) 長野県西筑摩群山口村と岐阜県中津川市の境界紛争地域人口(男39人,女34人)は全国に含...	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
982 rows × 9 columns

以前の講義で学習した
Python 無料で独習 022 外部ライブラリ(Pandas)
read_csv関数です。
今回の講義では読み込むファイルがshift-jisとわかっているので
予めencoding='shift-jis'と入力しているそうです。
この部分に関しては今のところよくわかっていません(笑)

type(df_population_data)
pandas.core.frame.DataFrame

pd.set_option('display.max_columns',5)
df_population_data
	都道府県コード	都道府県名	...	人口(男)	人口(女)
0	00	全国	...	28044185	27918868
1	01	北海道	...	1244322	1114861
2	02	青森県	...	381293	375161
3	03	岩手県	...	421069	424471
4	04	宮城県	...	485309	476459
...	...	...	...	...	...
977	45	宮崎県	...	519242	584827
978	46	鹿児島県	...	773061	875116
979	47	沖縄県	...	704619	728947
980	1) 沖縄県は調査されなかったため,含まれていない。	NaN	...	NaN	NaN
981	2) 長野県西筑摩群山口村と岐阜県中津川市の境界紛争地域人口(男39人,女34人)は全国に含...	NaN	...	NaN	NaN
982 rows × 9 columns

データフレームの操作として、
type()関数をつかってデータ型をみたり、
pd.set_option('display.max_columns',5)
で最大表示columを5列にしてみたり、

df_population_data.head()
	都道府県コード	都道府県名	...	人口(男)	人口(女)
0	00	全国	...	28044185	27918868
1	01	北海道	...	1244322	1114861
2	02	青森県	...	381293	375161
3	03	岩手県	...	421069	424471
4	04	宮城県	...	485309	476459
5 rows × 9 columns


df_population_data.tail(5)
	都道府県コード	都道府県名	...	人口(男)	人口(女)
977	45	宮崎県	...	519242	584827
978	46	鹿児島県	...	773061	875116
979	47	沖縄県	...	704619	728947
980	1) 沖縄県は調査されなかったため,含まれていない。	NaN	...	NaN	NaN
981	2) 長野県西筑摩群山口村と岐阜県中津川市の境界紛争地域人口(男39人,女34人)は全国に含...	NaN	...	NaN	NaN
5 rows × 9 columns
頭から5行目までを表示したり、最後から5行表示させたりと
以前の講義で操作した内容をjupyternotebookでも実装可能です。

その他にもデータの情報や使用メモリー数を知る
.info()
や、標準偏差、最大、最小などを一覧できる
.describe()
小数点以下の桁数が多い場合などにまるめる
.describe().round(0)メソッドなどが紹介されています。

ここの機能の細かい部分などは後のレッスンで講義してくださるとのこと。
仕事での業務効率化や、少し興味のあるAIなどでも活用されている
Pandasだけに、この一連の講義でしっかり基礎を身に着けたいと思います。

コメント

タイトルとURLをコピーしました