Vtuberがどんどん排出されている昨今, Mecabの辞書を古いままにしておくと形態素解析の精度が悪くなる.
形態素解析を自作しても良いが, そこに労力を割くのも合理的ではないので自分で辞書を作って新出語を解析できるようにしてしまおう.
自己参照用のエントリなので詳しく知りたい人は下部の参考から各エントリに飛ぶと良い.
環境
MacOS X
システム辞書としてはipadicではなくmecab-ipadic-neologdを使用している.
コンパイル
そこまで難しくはない.
$ /usr/local/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index \
-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd \
-u user.dic \
-f utf-8 \
-d : 使用しているシステム辞書を指定(デフォルトだとipadic) -u : 作成されるユーザー辞書 -f : 文字コード(基本的にutf-8) -t : 文字コード(基本的にutf-8)と登録したい言葉が記入されているCSVファイル
emitting double-array: 100% |###########################################|
done!
が出ればコンパイル成功
added.csvは次のような感じ
名取さな,,,10,名詞,固有名詞,人名,一般,*,*,名取さな,ナトリサナ,ナトリサナ 月ノ美兎,,,10,名詞,固有名詞,人名,一般,*,*,月ノ美兎,ツキノミト,ツキノミト 樋口楓,,,10,名詞,固有名詞,人名,一般,*,*,樋口楓,ヒグチカエデ,ヒグチカエデ
ユーザー辞書登録
コンパイルが成功したら次はmecabがユーザー辞書を読み込むように設定する.
$ vim /usr/local/etc/mecabrc
userdicがコメントアウトされているので, この部分を先ほど作成したユーザー辞書のパスに書き換える.
*ユーザー辞書がどこにあるのかを確認しておくこと.
; userdic = /home/foo/bar/user.dic userdic = /usr/local/lib/mecab/dic/user.dic
動作確認してみる,
<適用前>
<適用後>
Vtuberに限らず, 自分で定義したい言葉とかはこの方法を使うのが良さそう.