読者です 読者をやめる 読者になる 読者になる

Ubuntu Server 14.04にMeCabとMeCab-Rubyをインストール

mecab自体はapt-get出来る状態だったので、それを利用します。

$ sudo apt-get install mecab
$ sudo apt-get install libmecab-dev
$ sudo apt-get install mecab-ipadic-utf8  

ipaの辞書ファイルを落としてきます

$ wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
$ tar zxvf mecab-ipadic-2.7.0-20070801.tar.gz
$ cd mecab-ipadic-2.7.0-20070801/

carsetにutf-8を指定してmake

$ sudo ./configure --with-charset=utf8
$ make
$ sudo make install

標準では別の辞書ファイルがインストールされるため、設定を編集してipadicに変更します。

$ sudo vim /etc/mecabrc
- dicdir = /var/lib/mecab/dic/debian
+ dicdir = /usr/lib/mecab/dic/ipadic

mecab-rubyのインストール

mecab-rubyは利用するmecabのバージョンと一致させる必要がある。

mecabのバージョン確認

$ mecab --version
mecab of 0.996

0.996のmecab-rubyをダウンロードしてインストール

$ wget http://mecab.googlecode.com/files/mecab-ruby-0.996.tar.gz
$ tar vxf mecab-ruby-0.996.tar.gz
$ cd mecab-ruby-0.996/
$ gem build mecab-ruby.gemspec
$ gem install mecab-ruby-0.99.gem
$ gem list | grep mecab
mecab-ruby

下記コマンドを実行して形態素解析ができればOK

$ ruby test.rb
この    連体詞,*,*,*,*,*,この,コノ,コノ
本      名詞,一般,*,*,*,*,本,ホン,ホン
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
二      名詞,数,*,*,*,*,二,ニ,ニ
郎      名詞,一般,*,*,*,*,郎,ロウ,ロー
を      助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見      動詞,自立,*,*,一段,連用形,見る,ミ,ミ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
女性    名詞,一般,*,*,*,*,女性,ジョセイ,ジョセイ
に      助詞,格助詞,一般,*,*,*,に,ニ,ニ
渡し    動詞,自立,*,*,五段・サ行,連用形,渡す,ワタシ,ワタシ
た      助動詞,*,*,*,特殊・タ,基本形,た,タ,タ
。      記号,句点,*,*,*,*,。,。,。
EOS

ちなみに、はてなブログwikipediaの辞書を追加するニーズが多いようなので、以下にまとめました。

watarisein.hatenablog.com