Python 無料で独習 【超特訓】Pandas20本ノック 05

Python
この記事は約3分で読めます。

今回の講義はPandasの操作に関する問題を出されて
それを実際にコードを書いて解いていくという内容です。

特定のテーマに沿った課題に取り組みながら
スキルを向上させていきます。
前準備として、問題に出てくるデータは下記URLから
ダウンロードしておく必要があります。
https://drive.google.com/drive/folders/1oKCLH1D_KXVLJFutxtP1dvzgWNYtoqVi

Pandas 20本ノック

問題その10 並び替え

dfを最高気温が高い順に並び替えてください。

Pandasにはデータの並び替えをするメソッドがあります。
sort_values()    降順昇順の並び替えができる。
このままつかうと昇順になりますので
sort_values(引数1, ascending = False) とすると降順となるそうです。

df.sort_values('最高気温' ,ascending = False)

問題その11 ダミー変数への処理

df_people の nationality カラムをダミー変数に変換してください。

問題の意味があまりわからない(笑)
ここは素直に回答を聞きます。

ダミー変数とはカテゴリー型のデータを0,1 の変数で表現しなおすこと
との事です。聞けば聞くほどわらかない(笑)

とりあえず、nationality カラムのデータを取り出します。
uniqueメソッドで全種類を抽出できます。

プラス、現在の配列も確認します。

df_people['nationality'].unique()
array(['Japan', 'America', 'Korea'], dtype=object)

df_people['nationality']
0      Japan
1    America
2      Japan
3    America
4      Korea
Name: nationality, dtype: object

ここから get_dummies メソッドを使用し変換してみます。

pd.get_dummies(df_people['nationality'])


こうやって出力されたものを見るとなんとなく
理解できたような気がします(笑)
とにかく三種類の国名があるので、それを0,1で表現した
ということなんだと思います。

この後、もともとのdf_peopleの表にくみこむ方法も
説明されてます。

pd.get_dummies(df_people, columns=['nationality'])


ちなみに  columns=['nationality'] として
カラムを指定しないと全ての値がダミー化します。

pd.get_dummies(df_people)

こんなのどこで使うんだろう?と最後に疑問に思っていたら、
このダミー変数とかは機械学習などでよくでてきます、と
ちゃんと説明してくださってました。
さすが今西先生!

コメント

タイトルとURLをコピーしました