Gephiで記事の回遊状況を可視化してみた

投稿者: | 2018年12月19日

このエントリーは、GMOアドマーケティング Advent Calendar 2018 の 12/19 の記事です。
GMOアドマーケティングとしては初のAdvent Calendar参戦です。

こんにちは。
GMOアドマーケティングのM.Nです。

弊社ではメディアの回遊性、収益性を高めるため、レコメンドウィジェットの「TAXEL」を提供しています。

レコメンドウィジェットにおいて、記事の回遊状況
(レコメンドされている記事、クリックされている記事)
を知ることは、分析において非常に重要な要素です。

そこで今回、Gephiを使用して記事の回遊状況を可視化してみました。
可視化することで
「どのような記事がよく読まれているか」
「どのような記事がよくクリックされているか」
といった情報を直感的に得ることができます。

1.Gephiとは

以下、gephi.orgより引用

Gephi は、ネットワークの可視化と分析のためのオープンソースソフトウェアです。
Gephi はデータ解析を支援することで、パターンやトレンドの直感的把握、異常値の特定を可能にし、「データそれ自体に語らしめる」ことができます。
Gephi は 3D レンダリングエンジンを使ってグラフをリアルタイムで表示し、グラフの探索をスピードアップします。
Gephi は、各種のビルトイン機能や柔軟なアーキテクチャにより、次のことを行うことができます。

– 探索
– 分析、解析
– 空間化
– フィルタリング
– クラスタ分析
– 操作
– エクスポート

対象は、あらゆる種類のネットワークです。

2.データの準備

今回は記事の回遊状況を可視化します。
可視化には記事情報(Node)と記事の遷移(Edge)が必要です。

まずはログデータから以下のデータを抽出します。

Node

  • 記事ID (id)
  • タイトル (label)
  • カテゴリ (optional)

Edge

  • 遷移元の記事ID (source)
  • 遷移先の記事ID (target)
  • クリック数 (weight)
  • ラベル (label)

他には記事のURLなどを取得してもよいでしょう。
ABテストを実施している場合はABテストのパターンIDを取得しておくと、パターン別で回遊状況を可視化することも可能です。

今回はデータの準備に関しては省略します。
データが多くなりすぎるとノイズが増えるので、回遊の多いヘビーユーザーのみを抽出するなど
サンプリングデータを適切に取得します。

作成したデータはcsvデータにしておきます。

nodes.csv

edges.csv

ヘッダーをつけておくとインポート時に項目が自動的に判定されるので便利です。

3.データの可視化

いよいよGephiを使用して可視化していきます。

公式サイトからインストーラーをダウンロードし、インストールします。
Gephiを起動したら新規ワークスペースを選択し、データ工房からスプレッドシートのインポートをクリックします。

先程作成したnodes.csvとedges.csvを選択し、「開く」をクリックします。
インポートの各ステップでは「次へ」をクリックしていけば大丈夫です。
最後にインポートの報告が出るので、「Append to existing workspace」を選択して「OK」をクリックします。



すると、以下の図が表示されます。

このままだと何がなんだかわからないので、ここから加工していきます。

カテゴリで色分けをします。
概観から「Nodes」→「Partition」で「optional」を選択し「適用」をクリックします。


Nodeの大きさを変更します。
「Nodes」→「大きさ」→「Ranking」で
In-Degree
Min size : 5
Max size : 50
と選択し「適用」をクリックします。

レイアウトで「Force Altas2」を選択して「実行」します。

ここまでくるといい感じのグラフになりましたね。

右下のアイコンをクリックするとテキストの編集ができます。
「Labels」を選択し
「ノード」にチェック、フォントサイズを変更し、「非選択を隠す」もチェックします。

これで完成です。
Nodeにマウスポインタを合わせると、Nodeの情報と、その記事から何の記事が読まれているか
どの記事からレコメンドされているか、などの情報を得ることができます。

4.さいごに

いかがでしたでしょうか。
データを可視化することでパターンやトレンドの直感的把握、異常値の特定を可能にし、次の戦略を立てるのに役立てることができます。
この記事がみなさんのデータ分析の一助となれば幸いです。

明日は、T.Iさん“「WebVRのフレームワーク「A-Frame」”についてのお話です。
お楽しみに。

クリスマスまで続くGMOアドマーケティング Advent Calendar 2018
ぜひ今後も投稿をウォッチしてください!

■エンジニアによるTechblog公開中!
https://techblog.gmo-ap.jp/
■Wantedlyページ ~ブログや求人を公開中!~
https://www.wantedly.com/projects/199431
■エンジニア採用ページ ~福利厚生や各種制度のご案内はこちら~
https://www.gmo-ap.jp/engineer/
■エンジニア学生インターン募集中! ~有償型インターンで開発現場を体験しよう~
https://hrmos.co/pages/gmo-ap/jobs/0000027

The following two tabs change content below.

M.N

最新記事 by M.N (全て見る)