今回は、アイデミーがおすすめする「pandas」の学習手順を紹介します。
早速ですが、pandasを学習してデータ分析をしたい人には、以下の順で学習を進めるのがおすすめです。
- Pythonの基礎を学ぶ
- 公式ドキュメントを読みながらpandasに触れてみる
- Jupyter-Labでpandasを動かしてみる
- 書籍と自作プログラムでpandasの理解を深める
これらについて、ひとつずつ解説していきます。
Pythonの基礎を学ぶ
データ処理ライブラリ「pandas」は、Pythonのプログラムから利用できるデータ分析用のツールキットです。もしpandasでデータ分析をしたいなら、まずはPythonの基礎を学ぶことをおすすめします。Pythonを使えなければ、pandasを使うこともできません。どのような命令文がどのような意味を示すのかが分からない限り、pandasで目的のデータ処理の実行はできません。
文法が比較的分かりやすく、多くの人に愛用されているPythonは、Web上に基礎の解説記事が豊富です。Aidemyのような学習サービスを利用したりPythonの公式ドキュメントを読んだりしながら、Pythonそのものの基礎文法を学びましょう。
プログラミング言語の中では比較的わかりやすいとはいっても、プログラミング未経験者の人は、何度も壁にぶつかってしまうことがあるかと思います。
そんな時、効率よく学習を進めていくには「とにかく手を動かすこと」を意識してください。例えば、プログラムに何らかのエラーが出て動かなくなってしまった場合に、ただ画面を睨みつけていても問題解決には至りません。
プログラムが「人間が書いたコードに忠実に動くもの」である以上、プログラムが動かないのは書いたコードにミスがある場合がほとんどです。動かなければWebで調べたり、コードの抜け漏れや余計なものを書いていないかチェックしたりしましょう。
トライ&エラーを繰り返すことで「コードのどこに問題があるのか」「どう書けばどう動くか」を徐々に理解できるでしょう。
Pythonについてはこちらの記事で詳しく解説しています。
【前編】Python入門ガイド、初心者向けにわかりやすく解説~Pythonの活用事例が知りたい!
公式ドキュメントを読みながらpandasに触れてみる
Pythonの基礎文法をおさえたら、いよいよpandasに触れてみましょう。pandasを実行できる環境の構築方法や、実際のpandasの使い方は公式ドキュメントを読みながら学ぶのがおすすめです。
公式ドキュメントでpandasを学ぶことのおすすめポイントは、以下の2つです。
- 公式ドキュメントの解説は正確かつ簡潔である
- ライブラリの最新バージョン情報を正しく知ることができる
ここから詳しく説明していきます。
公式ドキュメントの解説は正確かつ簡潔である
pandasに限らず他のすべてのライブラリに言えることですが、安易にWeb上の解説記事をつまみ食いするよりも、基礎からひとつずつ手順を踏んで解説してくれる公式ドキュメントのチュートリアルにしたがって学習を進めていった方が、最終的により短期間で多くのことを正確に学べます。
公式ドキュメントにはそのライブラリについて正確かつ簡潔に書かれているので、正しい情報をピンポイントに収集していけます。日本語に対応していない場合もありますが、ほとんどのドキュメントは世界各国の人が読んで理解できるよう平易な英語で書かれています。
もし英語に苦手意識がある場合は、Googleの自動翻訳機能などに頼りながら学習を進めるのもよいでしょう。公式ドキュメントに書かれているプログラムは簡潔なものが多いので、自動翻訳とプログラムを見比べれば書かれていることについて概ね正しい情報を読み取れます。
ライブラリの最新バージョン情報を正しく知ることができる
多くのライブラリには「バージョン」があります。世の中の多くの道具やツールがそうであるように、「pandas」を含めプログラミング言語のライブラリもまた、定期的なアップデートでバージョンが更新されていきます。
バージョンが更新されることで、ライブラリの中の一部の機能の使い方が変わることがあります。また、古い機能が「まだ使用可能だが極力使わないように」と非推奨とされる場合もあります。
そのためWeb上の古いバージョンの記事をもとに学習を進めると最新のバージョンでは動かなくなっているというエラーにつまづくことがあります。
その点、公式ドキュメントは常に最新バージョンの仕様について解説しています。
不要なエラーを避けて正しく最新バージョンのpandasの使い方を身につけるには、できる限り公式ドキュメントをもとに学習を進めていくのがおすすめです。
とはいえ、公式ドキュメントも万能ではありません。わかりづらい箇所や、どうしてもエラーを解消できない箇所などは、噛み砕いて説明しているWeb記事や書籍、学習サービスを利用するのも手です。
もし今わからない箇所があっても、そこに固執して完璧に理解しようとせず「今後どこかのタイミングで、もう一度勉強してみよう」と気楽なスタンスで学習を進めていくと、効率よくライブラリの全体像について学んでいくことができるでしょう。
JupyterLabでpandasを動かしてみる
ここまでの学習手順を踏むと、Pythonとpandasの基礎に一通り触れることができます。次は「JupyterLab」というサービス上でpandasや他のライブラリを動かしながら実践的なデータ分析をしてみましょう。
「JupyterLab」は、自分のノートに書くように、プログラムの入力と試行を繰り返していくことができるWebアプリです。サービス上でpandasを含めさまざまなライブラリを活用しながらデータの解析や検証を行えるため、データ分析の分野を中心に多くのエンジニアや研究者に愛用されています。
JupyterLabは自分のPCやサーバー上のファイルにアクセスできます。自分自身が持っている分析対象のデータを作業ディレクトリに配置して、実際にpandasを使いながらデータの集計や前処理を実践してみましょう。
もし分析にちょうどよいデータが手元にないという人は、公のサービスが無償で公開しているデータをダウンロードして利用するのもおすすめです。例えば、気象庁のホームページからは、過去の気象データのCSVファイルをダウンロードすることができます。
JupyterLabで入力したPythonのプログラムは、対話的に実行して、その結果が画面上に分かりやすく表示・記録されます。このノートのような機能を生かし、自分なりにpandasの使い方について基礎を振り返ったり、応用的な使い方を検証したりしてみましょう。
JupyterLabがたくさんのプログラムとメモ書きで埋めつくされる頃には、軽いデータ処理ならすらすらと書けるようになっているはずです。ともかく「自分の手でpandasのプログラムを動かすこと」「自分のデータを自分が意図した形に整形・抽出していくこと」を意識しながらpandasによる色々な形のデータ処理を何度も検証してみましょう。
書籍と自作プログラムでpandasの理解を深める
JupyterLab上でpandasを使ったデータ処理をすることに少しずつ慣れてきて、さらに理解を深めたい人は、技術書と自作プログラムで柔軟なデータ処理のスキルを身につけていきましょう。
多くの分野で「インプットとアウトプットを繰り返す」ことが記憶を定着させると言われているため、これは効率よく理解を深める重要なポイントだと考えられます。プログラミングにおいても同じで、専門性の高い技術書での「インプット」と、学習内容をもとに自作プログラムをつくる「アウトプット」の工程を繰り返すことで、高い専門性を獲得できるでしょう。
具体的には、以下の手順で理解を深めていくのがおすすめです。
- 技術書を読んで知識の穴を埋める
- 学んだ知識で自作のデータ処理プログラムを実装する
- プログラムを自作していく中で、新たな知識の穴を発見する
- 1~3を繰り返す
最小限のコードで簡潔に解説する公式ドキュメントと違い、技術書には幅広い技術を網羅しながら詳細に技術仕様を解説してくれるという特徴があります。技術書は、ここまでの学習で拾い損ねた知識の穴を埋め、今あるスキルを他のライブラリと連携しながら活用する総合的な力を身に付けさせてくれます。
自作プログラムへのアウトプットを繰り返しながら、効率よくpandasを使いこなすスキルを向上させていきましょう。
次回は、データ分析を学びながらpandasのスキルを向上できる技術書を紹介します。お楽しみに!
今回紹介した「pandas」は、Aidemy Premium Planで「AIアプリ開発コース」や「データ分析コース」の学習内容に含まれています!