MeCabへWikipediaの辞書を追加する方法

こんにちは、GMOアドマーケティングのS.Rです。

日本語のNLP(自然言語処理)で形態素解析は大切な処理の1つとなります。
今回は、形態素解析ツール「MeCab」へWikipediaの辞書を追加する方法を紹介します。1. 日本語の形態素解析ツールMeCab

MeCabは日本語の形態素解析ツールです。詳細はWikipediaの説明をご覧ください。

MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓によって開発されている。名称は開発者の好物「和布蕪(めかぶ)」から取られた。

MaCab、2019年09月17日、ウィキペディア日本語版、https://ja.wikipedia.org/wiki/MeCab

2. 「MeCab」へWikipediaの辞書を追加する方法の説明

1) Mecabをインストールする:

2) Mysqlをインストールする:

下記のコメントでMysqlをインストールします。

3) Mysqlのデータベースを作る:

4) Wgetをインストールする:

5) Wikipediaから辞書のローデータをダウンロードする:

※引用元|Wikipediaデータ MySQLを経由してBigQueryにLoadする|GMOアドマーケティング Advent Calendar 201911日目|https://qiita.com/fiemon/items/a3b2fda47b7dfef9cc6a

6) Mysqlへローデータを読み込む

※引用元|Wikipediaデータ MySQLを経由してBigQueryにLoadする|GMOアドマーケティング Advent Calendar 201911日目|https://qiita.com/fiemon/items/a3b2fda47b7dfef9cc6a

7) 辞書データのCSVファイルを作成:

※引用元|Wikipediaデータ MySQLを経由してBigQueryにLoadする|GMOアドマーケティング Advent Calendar 201911日目|https://qiita.com/fiemon/items/a3b2fda47b7dfef9cc6a  

8) PythonでCSVファイルをmecab-ipadic-neologdのフォーマットへ変換する

下記のpythonのcodeを~/parse.pyで保存します。

9) Mecabの辞書を作成

10) Mecabへユーザー辞書を追加する:

11) 解析結果を試す:

まとめ

今回はMeCabへWikipedia辞書を追加する方法を紹介しました。Wikipedia辞書の追加によってMecabは最新のネット用語、固有表現の単語を認識できるようになります。Wikipedia辞書を活用して形態素解析の精度を大幅に改良できると思います。
今回のブログが皆さんの日本語のNLPの開発にお役に立てば幸いです。