MeCabの使用について [スレッド] KH Coder 旧掲示板

樋口先生

お世話になります。
MeCabでの形態素解析について質問です。

現在、語を抽出する方法をMeCabで実施しようと試みています。

Twitterのツイート内容に対して分析を行っているため、デフォルトのままで使用をすると、未知語が多く検出されてしまいます。

そこで、MeCab用にwikipediaの見出し語の辞書をshift-jisにて作成し、参照するようにしました。

mecab.exeのパスは、通常どおりのMeCabのインストール後、そのままのフォルダをkhcoderフォルダのchasenと同じディレクトリに移動させました。

C:\khcoder\dep\MeCab\bin\mecab.exe

この設定で、文字コードがshift-jisのtxtファイルの前処理を実行したところ、「MeCabの起動に失敗しました」との警告が出てしまいます。

チュートリアルの「kokoro2.txt」でも失敗してしまいます。

また、分析対象ファイルのチェックを行いましたが、特に問題は見当たらないとの結果が出ました。

どうか、ご教授をお願いいたします。

■ [No.2293] Re: MeCabの使用について 投稿者：KJ 投稿日:2015/11/20(Fri) 19:36:58

樋口先生

たびたびで申し訳ございません。

先ほど、KHCoderをインストールし直し、MeCabの参照パスを
C:\Program Files (x86)\MeCab\bin\mecab.exe
にして再度実行したところ、前処理の実行はできたのですが、
ツール>抽出語>抽出語リストを確認そたところ、全セルに何１つ入力されていないエクセルファイルになってしまいました。

参照しているMeCabでは、wikipediaの見出し語辞書をユーザー辞書として参照しています。
MeCabのwikipediaの見出し語辞書はPythonを用いて作成しました。
文字コードはutf-8になっています。

また、MeCabの文字コードもutf-8でインストールしています。

何か対処法をご存知でしたらご教授いただけますと幸いです。
宜しくお願いいたします。

■ [No.2295] Re: MeCabの使用について 投稿者：KJ 投稿日:2015/11/20(Fri) 20:05:10

> 参照しているMeCabでは、wikipediaの見出し語辞書をユーザー辞書として参照しています。
> MeCabのwikipediaの見出し語辞書はPythonを用いて作成しました。
> 文字コードはutf-8になっています。
>
> また、MeCabの文字コードもutf-8でインストールしています。

先ほど、MeCabをshift-jisにてインストールし、辞書も同じくshift-jisにて行ったところ、無事実行することができました。

大変お騒がせいたしました。
今後とも宜しくお願いいたします。

■ [No.2298] Re: MeCabでUTF-8の辞書を使うには 投稿者：HIGUCHI Koichi 投稿日:2015/11/20(Fri) 20:14:43

こんにちは、樋口です。書き込みありがとうございます。

UTF-8のMeCab辞書を使う場合は、メニューから「プロジェクト」「設定」と
たどって開いた画面の「MeCab」の箇所で、「Unicode辞書」にチェックを入
れてください。