今回の講義はPandasの操作に関する問題を出されて
それを実際にコードを書いて解いていくという内容です。
特定のテーマに沿った課題に取り組みながら
スキルを向上させていきます。
前準備として、問題に出てくるデータは下記URLから
ダウンロードしておく必要があります。
https://drive.google.com/drive/folders/1oKCLH1D_KXVLJFutxtP1dvzgWNYtoqVi
Pandas 20本ノック
問題その19 相関係数の算出
dfの下記3項目同士の相関関係を算出してください。
・平均気温
・降水量の合計
・日照時間
corr() 相関係数の算出
で求めることができます。
そもそも相関係数とは
2つの変数(データ)間にある関係性の強弱を測る指標。
ある2つの値、2つの指標を見比べた時に
ある一方が上がればもう一方も上がる
ある一方が上がってもう一方は下がる
という関係性があった時に相関があるという。
相関係数とは
両方上がる時=正の相関
一方が上がり一方が下がる=負の相関
これらを数値で表現したのが相関係数であり
正の相関が1番強い→1
負の相関が1番強い→-1
df[['平均気温(℃)','降水量の合計(mm)','日照時間(時間)']].corr()
実装するとこんな感じになります。
1に近い数字が見受けられないので全体的に相関関係は
なさそうに見えます。
-0.36となっている日照時間と降水量はそりゃあ負の相関関係は
あるよね~という感じで面白いです。
この問題ではカラムの指定がありましたが、
df.corr()とすると全体の相関係数を見ることができます。
df.corr()
問題その20 データの出力
欠損値を0で補完したdfをexport.csvというファイル名で
csvとして出力してください。
インデックスの出力は不要です。
まず、Nanの値を0に変えます。以前学習した
fillna()です。
それをto_csvをつかって出力します。
インデックは不要とのことだったので
index=Falseとなります。
df.fillna(0).to_csv('export.csv' ,index=False)
コメント