DEVELOPERS BLOGデベロッパーズブログ
全文検索用に形態素解析システムを利用してみたいということで、MeCab (めかぶ) を使ってみることにした。
標準インストールでは /usr/local/bin 等にインストールする。こちらが利用できるのであれば、公式サイトの標準インストール方法でOK。
XSERVER の X10 など共用サーバ等でホームディレクトリ以外の場所にはインストールできない等の制限がある場合向けに、ホームディレクトリ配下にインストールする方法を以下で紹介する。
作業は Linu/Unix 系プラットフォームで行ない、各種コマンドの実行権およびインストール先ディレクトリの作成および書き込み権があるという前提で記述する。
(confgure の構造を理解した上でのオプション指定ではないので、重複した指定があるかも知れない点はご容赦。)
mecab 本体のインストール
以下ではインストール先ディレクトリは /home/hogehoge/bin/mecab とする。エンコーディングは UTF-8 しか利用しないので、UTF-8 専用に構築する。
- 公式サイトから wget コマンドやブラウザで mecab-0.996.tar.gz を取得し作業用ディレクトリに保存する。(他のプラットフォームでダウンロードした場合は FTP 等で転送する。)
-
作業用ディレクトリで上記アーカイブを展開する。
$ tar xvfz mecab-0.996.tar.gz
-
mecab-0.996 フォルダに移動し、configure コマンドスクリプトで Makefile を生成する。
$ ./configure --with-charset=utf-8 --enable-utf8-only --prefix=/home/hogehoge/bin/mecab
-
make コマンドを実行してバイナリを生成する。
$ make
-
make install を実行して mecab 本体をインストールする。
$ make install
以上で /home/hogehoge/bin/mecab ディレクトリ配下に
- bin
- etc
- include
- lib
- bin
- libexec
- share
ができる。
mecab 用辞書のインストール
ここでは、推奨の「IPA辞書」をインストールする。こちらも UTF-8 エンコーディング専用に構築し、領域を節約する。
- 公式サイトから wget コマンドやブラウザで mecab-ipadic-2.7.0-20070801.tar.gz を取得し作業用ディレクトリに保存する。(他のプラットフォームでダウンロードした場合は FTP 等で転送する。)
-
作業用フォルダで上記アーカイブを展開する。
$ tar xvfz mecab-ipadic-2.7.0-20070801.tar.gz
-
mecab-ipadic-2.7.0-20070801 フォルダに移動し、configure コマンドスクリプトで Makefile を生成する。なお、mecab 本体が標準インストール先ではないので、念のため mecab の構成ファイルの位置をオプション -with-mecab-config で指定しておく (赤字部分)。
$ ./configure --with-charset=utf-8 --enable-utf8-only --prefix=/home/hogehoge/bin/mecab --with-mecab-config=/home/hogehoge/bin/mecab/bin/mecab-config
-
make コマンドを実行して一連の辞書ファイルを生成する。
$ make
-
make install を実行して 辞書ファイルをインストールする。
$ make install
以上で /home/hogehoge/bin/mecab/lib 配下に mecab/dic/ipadic ディレクトリが生成され、その中に
- matrix.bin
- char.bin
- sys.bin
- unk.bin
- left-id.bin
- right-id.bin
- rewrite.def
- pos-id.def
- dicrc
が生成される。以上で mecab のインストールは完了だ。作業用ディレクトリのファイルは削除して構わない。インストール容量は本体・辞書合わせて約54Mバイトだった。
mecab のテスト実行
インストールした mecab をテスト実行してみる。
$ ~hogehoge/bin/mecab/bin/mecab すももももももももはもも すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ は 助詞,係助詞,*,*,*,*,は,ハ,ワ もも 名詞,一般,*,*,*,*,もも,モモ,モモ EOS ^C $
無事動作した。
この記事は加藤 正人さんが書いています!
- 氏名
- 加藤 正人
- 役職
- 多分SE
- 血液型
- 秘密
- 出没
- 美味しいもののあるところ
- 特色
- タヒチ大好き。ちょいメタボ。
- 2020/12/15
- CakePHP3 のリダイレクトがうまく行かない例
- 2020/11/12
- Apache Bench
- 2020/10/05
- PhpSpreadsheet でExcel ファイルを読み込む (CakePHP3)
2020/12/15
2020/11/12
2020/10/05
2020/09/11
2020/08/03