今回の講義はPandasの操作に関する問題を出されて
それを実際にコードを書いて解いていくという内容です。
特定のテーマに沿った課題に取り組みながら
スキルを向上させていきます。
前準備として、問題に出てくるデータは下記URLから
ダウンロードしておく必要があります。
https://drive.google.com/drive/folders/1oKCLH1D_KXVLJFutxtP1dvzgWNYtoqVi
Pandas 20本ノック
問題その17 統計量の確認
dfの各カラムにおける、下記統計量を算出してください。
・平均値・最大値・中央値・最小値・標準偏差
この内容については以前にもキノコードさんの講義で受けていたので
復習をかねて勉強します。
ちなみに動画の問題ではdf_irisとなっていますが、
回答はdfで解説されいるのでdfで揃えます。
# 平均値
df.mean()
#中央値
df.median()
#標準偏差
df.std()
#最大値
df.max()
#最小値
df.min()
最後に今西先生がオススメしてくれたのが
describeメソッドです。
いろんな指標をまとめて取得することができます。
df.describe()
問題その18 折れ線グラフの表示
dfの先頭50日間における平均気温、最高気温、最低気温を折れ線グラフ(凡例なし)で可視化してください。
*横軸は年月日とすること
グラフを表示、ということなので
グラフを表示する為のライブラリmatplotlibをインポートします。
import matplotlib
ModuleNotFoundError: No module named 'matplotlib'
エラーが返ってきました。
私のパソコンにはまだインストールされていなかったみたいなので
matplotlibをインストールします。
!pip install matplotlib
Successfully installed cycler-0.10.0 kiwisolver-1.3.1 matplotlib-3.3.4 pillow-8.1.0
なんだかよくわかりませんが、
Successfully installed
と出ているのでインストールがうまくいったみたいです。
それでは本題に入っていきます。
matplotlibをインポートして、dfの先頭50行をとります。
そして横軸に年月日、縦軸に平均気温(℃)','最高気温(℃)','最低気温(℃)
をリストでわたしてとります。
凡例なし
とあったのでlegend=Falseを付け加えます。
import matplotlib.pyplot as plt
df[:50].plot(x='年月日' , y=['平均気温(℃)','最高気温(℃)','最低気温(℃)'],legend=False)
コメント