Python 無料で独習 【超特訓】Pandas20本ノック 09

Python
この記事は約2分で読めます。

今回の講義はPandasの操作に関する問題を出されて
それを実際にコードを書いて解いていくという内容です。

特定のテーマに沿った課題に取り組みながら
スキルを向上させていきます。
前準備として、問題に出てくるデータは下記URLから
ダウンロードしておく必要があります。
https://drive.google.com/drive/folders/1oKCLH1D_KXVLJFutxtP1dvzgWNYtoqVi

Pandas 20本ノック

問題その19 相関係数の算出

dfの下記3項目同士の相関関係を算出してください。
・平均気温
・降水量の合計
・日照時間

corr()  相関係数の算出
で求めることができます。

そもそも相関係数とは
2つの変数(データ)間にある関係性の強弱を測る指標。
ある2つの値、2つの指標を見比べた時に
ある一方が上がればもう一方も上がる
ある一方が上がってもう一方は下がる
という関係性があった時に相関があるという。

相関係数とは
両方上がる時=正の相関
一方が上がり一方が下がる=負の相関
これらを数値で表現したのが相関係数であり
正の相関が1番強い→1
負の相関が1番強い→-1

df[['平均気温(℃)','降水量の合計(mm)','日照時間(時間)']].corr()


実装するとこんな感じになります。
1に近い数字が見受けられないので全体的に相関関係は
なさそうに見えます。
-0.36となっている日照時間と降水量はそりゃあ負の相関関係は
あるよね~という感じで面白いです。
この問題ではカラムの指定がありましたが、
df.corr()とすると全体の相関係数を見ることができます。

df.corr()

問題その20 データの出力

欠損値を0で補完したdfをexport.csvというファイル名で
csvとして出力してください。
インデックスの出力は不要です。

まず、Nanの値を0に変えます。以前学習した
fillna()です。
それをto_csvをつかって出力します。
インデックは不要とのことだったので
index=Falseとなります。

df.fillna(0).to_csv('export.csv' ,index=False)

コメント

タイトルとURLをコピーしました