こんにちは。GMOアドマーケティングのS.Rです。
前回はJumanpp 1.04/KNPの環境構築方法を紹介しました。いかがでしたでしょうか?
Jumanpp1.04よりJumanpp 2.0の実行速度は20倍以上に改良されました。今回は後継のJumanpp 2.0のpython環境構築方法を皆さんへ紹介させていただきます。
ColabのInstanceを作る
今回はGoogleのMachine Learning Cloud ServiceというColabを利用して説明します。Colabの公式サイトからColabのPython3のInstanceを作ります。Jumanpp V2をダウンロードする
下記のcommandでJumanpp V2をダウンロードします。
1 2 |
!wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz !tar xvf jumanpp-2.0.0-rc3.tar.xz |
JumanppV2をインストールする
下記のcommandでJumanppV2をインストールします。
1 2 3 |
!cd jumanpp-2.0.0-rc3 && mkdir bld !cd jumanpp-2.0.0-rc3/bld && cmake .. -DCMAKE_INSTALL_PREFIX=/usr/local !cd jumanpp-2.0.0-rc3/bld && make install -j 4 |
pyknpをインストールする
1 |
!pip install pyknp |
JumanppV2の実行速度を測る
下記のcodeでJumanppV2を実行してみましょう。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 |
from pyknp import Juman, BList, KNP import time def jumman_parse(text): text = text.replace(" ", "") text = text.replace(" ", "") text = text.replace("#", "") text = text.replace("#", "") words = [] sentences = [text] for sentence in sentences: try: juman = Juman("jumanpp", multithreading=True) parse_result = juman.analysis(sentence + "。") except: print("jumanpp error!!!!!!!!") print(sentence) continue for v in parse_result: print(v.genkei) return words start = time.time() jumman_parse("形態素解析は面白いです") end = time.time() print(end - start)じ |
Jumanpp1.04の実行速度と比較する
下記のcommandでJumanpp1.04をインストールします。
1 2 3 4 5 |
!wget -O jumanpp-1.02.tar.xz https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://lotus.kuee.kyoto-u.ac.jp/nl-resource/jumanpp/jumanpp-1.02.tar.xz !tar xf jumanpp-1.02.tar.xz !cd jumanpp-1.02 && ./configure --prefix=/usr/local !cd jumanpp-1.02 && make !cd jumanpp-1.02 && make install |
まとめ
今回は構文解析のツールJumanppV2のpython環境を構築する方法を紹介しました。JumanppV2はJumanppより精度と解析速度が大幅に改良されていますので、もし今回のブログが皆さんの日本語のNLPの開発にお役に立てば幸いです。
明日は「TensorFlow Recommenderで映画のレコメンダーシステムを構築」について皆さんへ紹介させていただきます。
引き続き、GMOアドマーケティング Advent Calendar 2021 をお楽しみください!
■エンジニア採用ページ ~福利厚生や各種制度のご案内はこちら~
https://note.gmo-ap.jp/n/n02cbeb6edb0d
■noteページ ~ブログや採用、イベント情報を公開中!~
https://note.gmo-ap.jp/