今回の講義はPandasの操作に関する問題を出されて
それを実際にコードを書いて解いていくという内容です。
特定のテーマに沿った課題に取り組みながら
スキルを向上させていきます。
前準備として、問題に出てくるデータは下記URLから
ダウンロードしておく必要があります。
https://drive.google.com/drive/folders/1oKCLH1D_KXVLJFutxtP1dvzgWNYtoqVi
Pandas 20本ノック
問題その10 並び替え
dfを最高気温が高い順に並び替えてください。
Pandasにはデータの並び替えをするメソッドがあります。
sort_values() 降順昇順の並び替えができる。
このままつかうと昇順になりますので
sort_values(引数1, ascending = False) とすると降順となるそうです。
df.sort_values('最高気温' ,ascending = False)
問題その11 ダミー変数への処理
df_people の nationality カラムをダミー変数に変換してください。
問題の意味があまりわからない(笑)
ここは素直に回答を聞きます。
ダミー変数とはカテゴリー型のデータを0,1 の変数で表現しなおすこと
との事です。聞けば聞くほどわらかない(笑)
とりあえず、nationality カラムのデータを取り出します。
uniqueメソッドで全種類を抽出できます。
プラス、現在の配列も確認します。
df_people['nationality'].unique()
array(['Japan', 'America', 'Korea'], dtype=object)
df_people['nationality']
0 Japan
1 America
2 Japan
3 America
4 Korea
Name: nationality, dtype: object
ここから get_dummies メソッドを使用し変換してみます。
pd.get_dummies(df_people['nationality'])
こうやって出力されたものを見るとなんとなく
理解できたような気がします(笑)
とにかく三種類の国名があるので、それを0,1で表現した
ということなんだと思います。
この後、もともとのdf_peopleの表にくみこむ方法も
説明されてます。
pd.get_dummies(df_people, columns=['nationality'])
ちなみに columns=['nationality'] として
カラムを指定しないと全ての値がダミー化します。
pd.get_dummies(df_people)
こんなのどこで使うんだろう?と最後に疑問に思っていたら、
このダミー変数とかは機械学習などでよくでてきます、と
ちゃんと説明してくださってました。
さすが今西先生!
コメント