[掲示板へもどる]
一括表示

  [No.1451] MeCab-近代文語Unidic 投稿者:西山  投稿日:2013/10/21(Mon) 22:54:29

樋口先生、

始めて書き込ませていただきます。西山と申します。よろしくお願いします。


−−−−

上記の通りMeCabと近代文語UniDicを使用して分析をしているのですが、名詞の一部、動詞の全部などが抽出されません。

現状抽出され、抽出語リストに表示されるのは、
「固有名詞、人名、感動詞、形容詞、副詞、形容詞B、副詞B、否定助動詞、形容詞(非自立)」
だけです。

現在のところ、貴サイト「F&Q」の「中古和文データや近代文語データを分析できますか?」を参考に、KH Coderの品詞設定「C:\khcoder\config\hinshi_mecab」を「6.」のご指示に合わせて編集しています。

問題があるとすれば、当該の「F&Q」中古和文のUniDicを例にとってご説明いただいており、当方は近代文語のそれを使用している、という差があることかと思い、上記の「hinshi_mecab」をMeCabの「left-id.def」などを参考に修正するなどしたのですが、抽出語数・リストともに変化がございません。

――――

以上、よろしくお願いいたします。


西山

追記:また当方、このようなソフトの設定を直接操作することには慣れてございませんが故に、吃驚するような基礎的な事項で誤りがあるかもしれませんが、それも含め、よろしくお願いいたします。


  [No.1452] Re: MeCab-近代文語Unidic 投稿者:HIGUCHI Koichi  投稿日:2013/10/22(Tue) 00:28:17

こんにちは、樋口です。書き込みありがとうございます。

どの部分の設定を修正すべきなのか、すぐには思いつきませんので、恐れ入り
ますが一歩一歩ご確認いただければと存じます。

まずは、MeCabと近代文語UniDicが上手く動いているかどうかです。分析対象
ファイルと同じ場所に「coder_data」というフォルダが作成されているかと思
います。そしてこのフォルダの中に、「[分析対象ファイル名]_ch.txt」と
いうファイルがございますでしょうか。このファイルには、MeCabの出力がほ
ぼそのまま保存されています。

この「*_ch.txt」ファイルを開いていただきますと、1行に1語ずつ情報が記載
されています。そして、分析対象ファイル中に「論ずる」という語があった場
合、MeCabと近代文語UniDicが正常に動作していれば、次のような行がこの「*
_ch.txt」ファイル中にあるはずです。

>論ずる(タブ)ロンズル(タブ)論ずる(タブ)動詞-一般(タブ)文語サ行変格(タブ)連体形-一般

なお、(タブ)は空白のように見えているかもしれません。またこの「*_ch.t
xt」ファイルの文字コードはEUCとなっています。

もしデータ中に「論ずる」が無かった場合は、無理矢理どこかに「論ずる」を
入れていただいて、上記のような正常な出力がなされているかどうかを、ご確
認いただけるでしょうか。もし「論ずる」が上記と異なっている(品詞名など
が異なる)場合は、「論ずる」の行全体をお示しいただけますでしょうか。


  [No.1453] Re: MeCab-近代文語Unidic 投稿者:西山  投稿日:2013/10/22(Tue) 09:51:38

樋口先生

素早いご対応、痛み入ります。

早速試してみたところ、上記と全く同じ行が発見できました。

間違いがあるといけないので、分析対象の冒頭に“論ずる”と新たに記入致してから改めて“前処理”を実行致しました。

よろしくお願い申し上げます。


西山


  [No.1454] Re: MeCab-近代文語Unidic 投稿者:HIGUCHI Koichi  投稿日:2013/10/22(Tue) 12:49:18

こんにちは、樋口です。書き込みありがとうございます。

「論ずる」が、「動詞-一般」「文語サ行変格」として抽出されているようで
したら、MeCabと近代文語Unidicは正常に動作していると考えられます。

次のポイントはKH Coder側の設定です。

(1) まずメニューから「プロジェクト」「設定」とたどり、「MeCab」が選択
されていて、「Unicode辞書」にチェックが入っていることを、念のためにご
確認ください。

(2) そして品詞設定ですが、 http://khc.sourceforge.net/FAQ.html#kobun
こちらのFAQ項目の「6. KH Coderの品詞設定を中古和文Unidicにあわせて変更
する」手順を再度ご確認ください。


たとえば、「config」フォルダ中の「hinshi_mecab」を編集するのが正しい手
順ですが、もしかして、「hinshi_chasen」ファイルを編集なさっているとい
うことはございませんでしょうか。

「hinshi_mecab」ファイルを開いて、動詞の行が「13,動詞,動詞-一般」とな
っているかをご確認ください。もし、こうなっていなければ、全体を上記FAQ
項目からコピー&ペーストして上書き保存していただくと良いでしょう。


ひとまず、上記(1)と(2)をご確認いただいた上で、再度「前処理」「抽出語リ
スト」コマンドを実行してみていただけますでしょうか。


  [No.1456] Re: MeCab-近代文語Unidic 投稿者:西山  投稿日:2013/10/22(Tue) 13:38:01

樋口先生

ご返信ありがとうございます。

外出先ではございますが、上記の点に関しては何度も確認致しましたので、ほぼ間違えはないかと存じます。

帰宅後もう一度確認いたしますが、少々遅くなりそうですので、取り急ぎ、念の為。

確認前のご連絡であること、重ねてお詫び申し上げます。


西山


  [No.1459] Re: MeCab-近代文語Unidic 投稿者:西山  投稿日:2013/10/22(Tue) 23:05:05

樋口先生


お世話になってございます。

確認いたしましたが、やはりご指摘いただいた点については問題ございませんでした。

念の為、挙げていただいたURLにある品詞設定をコピーアンドペーストして上書きした後、前処理を実行いたしましたが、抽出リストの内容は変化がありませんでした。

今までこの「hinshi_mecab」のファイルは幾度か弄ってみたのですが、その度抽出語数の「(使用)」はまったく変わりませんでしたので、妙に思っています。(また、件の"論ずる"を加える前と後で総抽出語数・異なり語数はきちんと増減しておりました。←「(使用)」の方は変化なし)

以上、よろしくお願い致します。

追記:分析対象のファイルに頻出したワードであり、抽出もされている"ふと"というワードを、このファイル冒頭に加えて前処理を実行したところ、総抽出語数とその「(使用)」は増加しましたが、異なり語数とその「(使用)」は増加しませんでした。通常に動作しているようです。


  [No.1460] Re: MeCab-近代文語Unidic 投稿者:HIGUCHI Koichi  投稿日:2013/10/22(Tue) 23:25:25

こんにちは、樋口です。書き込みありがとうございます。

> 今までこの「hinshi_mecab」のファイルは幾度か弄ってみたのですが、その
> 度抽出語数の「(使用)」はまったく変わりませんでしたので、妙に思って
> います。

これは確かに妙ですね。

試しに、hinshi_mecabの内容をhinshi_chasenとまったく同じにした上で、前
処理を実行してみますと、抽出語数や抽出語リストは変化しますでしょうか?


もしも変化しないとすると、hinshi_mecabの設定が読み込まれていないような
感じがします。

この場合は、正しいhinshi_mecabを修正しているのか、他にもhinshi_mecabが
存在するのではないかという疑問が生じます。


c:\khcoder\config\hinshi_mecabを編集されているということですが、もしか
して、c:\khcoder以外の場所にもKH Coderが存在するといったことは無いでし
ょうか?

ショートカットからKH Coderを起動されている場合、ショートカット上で右ク
リックして「プロパティ」を選択し、「リンク先」をチェックしてみてくださ
い。「リンク先」はc:\khcoder\kh_coder.exeになっていますでしょうか?


あるいは「config」フォルダ中に「hinshi_mecab」だけでなく
「hinshi_mecab.txt」といったファイルが存在し、内容が編集されているのは
後者のみといったことは、ございますでしょうか。


  [No.1463] 御礼:無事解決いたしました。 投稿者:西山  投稿日:2013/10/23(Wed) 12:28:33

樋口先生

西山でございます。事案の件、無事解決いたしましたこと、此処にご報告と御礼申し上げます。

ショートカットからプロパティを確認してみたところ、ご指摘の通り別のKHCoderを起動していたようでした。

当該の「config」から修正いたしましたところ、前処理成功・抽出語リストも設定通りに作成することが出来ました。

この度は初歩的な点から丁寧にご指導いただき、ありがとうございました。

また、基本的なミスからお手を煩わせてしまい、申し訳ございませんでした。以後、手元の機器は注意して扱おうと存じます。

末筆ではございますが、僭越ながら今後のKHCoderならびに樋口先生の益々のご活躍・ご発展を祈念させていただきます。


西山


  [No.1464] Re: 御礼:無事解決いたしました。 投稿者:HIGUCHI Koichi  投稿日:2013/10/23(Wed) 15:05:27

こんにちは、樋口です。

解決したことをお知らせいただきまして、大変ありがとうございます。

こうして結果をお知らせいただけますと、自分の見込みが正しかったかどうか
をはっきり知ることができ、本当に助かります。

KH Coderにはまだまだ不完全な部分・分かりにくい部分が残っていようかと思
いますので、必要に応じて、適宜ご連絡いただけましたら幸甚に存じます。

末筆ながら、貴殿の今後ますますのご健勝・ご健筆を祈念申し上げます。