はじめに
タイトルの通り、mecabの導入についての備忘録。
散々qiita等で記事にされているが、今日時点でのうまく行った結果として記録しておく。
mecabエンジンのインストール
ダウンロード先はこちら、基本的にインストール方法は同サイトに説明がある。
エンジンのインストール
$ tar zxfv mecab-0.996.tar.gz $ cd mecab-0.996 $ ./configure --with-charset=utf8 // これが文字化け防止のコマンド、"utf-8"のハイフンは不要 $ make $ make check // テストが開始する。 //================== //All 3 tests passed //================== //明らかにエラーによる中断がなく↑がおそらくでれば大丈夫。 $ sudo make install
辞書のインストール
$ tar zxfv mecab-ipadic-2.7.0-20070801.tar.gz $ cd mecab-ipadic-2.7.0-20070801 $ ./configure --with-charset=utf8 $ make $ sudo make install
文字化け対処
文字化けすると、以下のような状態になる。
$ mecab すもものうち すもものうち ????,????,*,*,*,*,* EOS
????の部分には本来ならば品詞が入るのだが、化けてしまっている。
文字化け対処の色々な方法について以下サイトで何種類か説明があるが、基本的には公式で説明されている、./configure --with-charset=utf8
で対処可能を思われる。
少なくとも私はそれで解決した。
が、もし一度インストールしてしまった…という方は一度アンインストールして、再度上記方法でインストールしたほうが良いだろう。
MeCabのアンインストール
各ディレクトリに入って、以下コマンドを実行する。
$ cd mecab-0.996 $ make uninstall $ make clearn $ cd mecab-ipadic-2.7.0-20070801 $ make uninstall $ make clearn
これで自分は一度文字化けした状態から、以下のように正しい動作に修正することができた。
$ mecab 今日は月が綺麗ですね! 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ 月 名詞,一般,*,*,*,*,月,ツキ,ツキ が 助詞,格助詞,一般,*,*,*,が,ガ,ガ 綺麗 名詞,形容動詞語幹,*,*,*,*,綺麗,キレイ,キレイ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ ! 記号,一般,*,*,*,*,!,!,! EOS