Colabでpysparkを利用する方法

こんにちは、GMOアドマーケティングのS.Rです。

ColabGoogleより提供されている人気の無料データ分析クラウドサービスです。Colabを使ってtensorflow,Kerasなどよく使われている機械学習のツールを利用できます。機械学習エンジニアにとってとても便利ツールです

今回は、Colabで大規模データを処理する事ができるpysparkというツールの環境を構築する方法を皆さんへ紹介します。

1. 環境構築

1) pysparkをインストールする

2. pysparkを利用する

今回はpysparkを使って簡単に日本、アメリカ、フランス、ロシアの人口数のデータをDataframeにして操作する例を皆さんへ紹介します。

1) pySpark SparkSessionを初期化する

2) DataFrameのデータを作成

3) pysparkのDataFrameを作成

実行した結果は下記です。

6) 国毎の平均値と総数を算出

まとめ

今回はColabでpysparkを利用する方法を皆さんへ紹介してみました。いかがでしたでしょうか。
pysparkは日々のデータ分析で良く使われているツールです。もし今回のブログが皆さんの日々のデータ分析の仕事にお役に立てば幸いです。