IBM WatsonのVisual RecognitionとGoogle Cloud AutoML Visionのカスタムモデルで画像解析を比較

GMOアドマーケティングのy.yです。

4回目のブログとなります。

今回は画像解析サービスのIBMのWatsonとGoogleのCloud AutoMLのカスタムモデルで広告のブロック判定目的の為に比較してみました。

比較する画像解析サービスはGoogleのCloud AutoMLとIBM WatsonのVisual Recognitionになります。

ラベル付け条件とコスト
1. Watson Visual Recognition(Standard)
  1. 最低画像登録枚数
    1. 正と誤と２つのクラスに、最小10枚、推奨50枚のタグ付けを行う必要があります。
  2. コスト※Visual Recognitionの料金について
    1. トレーニング $0.10 / 1枚
    2. 予測 $0.002 /1枚
2. Cloud AutoML Vision
  1. 最低画像登録枚数
    1. 各ラベルごとに最低100枚のタグ付けを行う必要があります。
  2. コスト※AutoML Visionの料金について
    1. トレーニング $20 / 1時間※毎月 10 個のモデルまで、モデルごとの最初の 1 時間のトレーニングは無料
    2. 予測 $3.00/1,000 個の画像※1～1,000 個の画像は無料で5,000,000 個以上の場合は問い合わせになります。
画像解析モデルの作成
1. 今回の広告の不正判定に使用するカテゴリ
  1. 肌
  2. ダイエット(強)
  3. ダイエット(弱)
  4. 歯
  5. 髪の毛
  6. アダルト
  7. OK画像
2. 画像枚数
  1. Googleの最低画像登録枚数に合わせて、カテゴリごとにそれぞれ約100枚を教師データに使用します。
3. 画像登録、ラベリング
  1. Google、Watson共にGUI上でそれぞれ画像をドラッグ&ドロップをしてラベル付けをしてモデルを作成。画像数700枚程度ですとどちらも30分かからないくらいでモデルが完成しました。
ぱくたその画像を使って解析してみます

解析対象画像の下に
・(PC) 左Google、右Watson
・(SP) 上Google、下Watson
の順番に結果を示します。
1. カメラを向けると精一杯盛ろうとする意識高い系ベビー
2. カラコンを入れた目
3. 右足を入念に伸ばすバレエダンサー
4. 餌抜きってマジかよ・・・
5. 考え込むクッキング坊主
6. 上を見上げるハリネズミ
7. 雪が舞う露天風呂に浸かる美女の透き通る肌
8. 男性の足のすね毛
9. 池の中に落とした小銭を探す男性
10. メイク落とし後の顔パック
おまけ

Googleはモデル作成後、モデルの精度をビジュアライズしてくれます。
まとめ
1. まず大きな違いとしてはコストのかかり方が違います。Watson Visual Recognitionは画像枚数で決まるのに対してGoogle Cloud AutoML Visionはトレーニング時間によってコストがかかります。
2. 操作性は圧倒的にGoogleがよかったです。Watsonは画像アップロードしてから画像を全選択できない？？ようで１枚ずつ選択してラベル付けをする必要があって使いづらかったです。
3. コストとテスト結果から比較したところ、精度としてはどちらのサービスも実務で使えそうなレベルでした。UI等の使い勝手を考えたらGoogleの方がいいのかなと個人的に感じました。
4. 今回記事にした解析対象画像はフリー素材のものなのでOK判定される画像が多くなりましたが、肌、ダイエット、歯、髪の毛、アダルト要素の入った画像で解析したところうまくカテゴライズされていたので精度自体はどちらのサービスもいい感じでした。個人的にはGoogleの方がうまくカテゴライズされた印象でした。