Colabでpysparkのword2vectorを利用する方法

こんにちは、GMOアドマーケティングのS.Rです。

前回は、Colabで大規模データを処理するpysparkというツールの環境を構築する方法を皆さんへ紹介しました。今回はcolabで自然言語処理に良く使われているword2vectorのモデルを利用する方法を皆さんへ紹介します。

1.環境構築

1)  pysparkをインストールする

下記のコマンドでpysparkをインストールできます。

pysparkの環境構築については前回のブログを参照してください。

2)  形態素解析のツールMecabをインストールする

3) Wikipediaのテキストデータを解析するツールをインストールする

2.学習データをダウンロード

今回の例として日本語のWikipediaの記事を学習データとして使います。下記のURLからWikipediaの記事のデータをダウンロードできます。

Wikipediaの記事のデータをreformatする必要があります。

3. ダウンロードされたWikipediaの記事を形態素解析する

まずMecabを使って形態素解析する関数を作成します。

Wikipediaの記事から名詞のみで抽出します。今回は例としてwikipedia/AA/wiki_00だけでPandasのDataframeを作ります。

実行した結果は下記です。

4. word2vectorのmodelを学習する

5. 記事x Vectorを計算する

6. エジプトと距離が近い TOP 10 の記事を抽出

抽出された記事は下記です。

7. まとめ

今回はColabでpysparkのword2vectorの利用方法を皆さんへ紹介してみました。いかがでしたでしょうか。word2vectorは自然言語処理に良く使われているモデルです。もし今回のブログが皆さんの日々の自然言語処理に関する仕事にお役に立てば幸いです。