Jumanpp1.04のユーザー辞書を追加する方法

この記事は GMOアドマーケティング Advent Calendar 2021 9日目の記事です。

こんにちは。GMOアドマーケティングのS.Rです。
前回Jumanpp1.04/KNPの環境構築方法を紹介しました。いかがでしたでしょうか?
Juman を利用するとMeCab より形態素解析の精度を上げることができます。今回は継のJumanppでユーザー辞書を追加する方法を皆さんへ紹介させていただます。

Jumanppとは

JumanppはRNNLM(Recurrent Neural Network Language Model) で日本語の単語の並びの意味的な自然さを考慮した形態素解析ツールです。JumanppはJuman,MeCab に比べ大きく性能が向上しています。文法・辞書・出力フォーマット等は Juman から引き継いだものを利用しています。

Jumanppをインストールする

今回はGoogleのMachine Learning Cloud Serviceというcolabを利用して説明します。

ColabのInstanceを作る

Colabの公式サイトからColabのPython3のInstanceを作ります。

Jumanpp1.04 の実行に必要なツールをインストールする

Jumanppをインストールする

Jumanppを試しましょう

”形態素解析”を解析してみました。
“形態素解析” はJumanpp の辞書に存在していなかったので解析の結果は ”形態”, “素”,”解析” 三つの単語になりました。
“形態素解析” を一つの単語として認識できるように ”形態素解析 ”をJumanpp の辞書へ追加しましょう。

Jumanppの辞書を作る

Jumanppの辞書のFormatは下記です。 (名詞 (固有名詞 ((読み {ひらかな})(見出し語 ({追加したい単語}))(意味情報 “代表表記 {追加したい単語} ))))

Jumanppの辞書をJumanppへ追加する

下記のcommandで作成した辞書をjumanppへ追加します。

辞書を追加した結果を確認しましょう

もう一度”形態素解析”を入力したら辞書の設定通り一つの単語として認識できるようになりました。

 まとめ

今回は構文解析のツールJumanpp1.04へユーザー辞書を追加する方法を紹介しました。
Jumanpp1.04 はJumanppより精度と解析速度は共に改良されていますので、もし今回のブログが皆さんの日本語のNLPの開発にお役に立てば幸いです。

明日はKONCEさんによる「技術ブログの数値集計の取り組み」に関しての記事です。

引き続き、GMOアドマーケティング Advent Calendar 2021 をお楽しみください! 

■エンジニア採用ページ ~福利厚生や各種制度のご案内はこちら~
https://note.gmo-ap.jp/n/n02cbeb6edb0d

■noteページ ~ブログや採用、イベント情報を公開中!~
https://note.gmo-ap.jp/