[掲示板へもどる]
一括表示

  [No.3771] 古文の分析について 投稿者:kota  投稿日:2018/08/09(Thu) 15:26:26
古文の分析について (画像サイズ: 1081×551 61kB)

こんにちは。初めて投稿させて頂きます。


現在、近世・近代の紀行文の分析を行うためにKH Coderを用いており、FAQの「中古和文データや近代文語データを分析できますか?」という項目を参考に、MeCabや辞書の設定、KH Coderの品詞設定の変更を試みています。

FAQ(http://khcoder.net/FAQ.html#kobun)の手順1から6までを順番に行い、データ分析を行おうとしたところ、画像1の左下のようなエラーが表示されました。
新規プロジェクトの際、言語設定はMecabを選択しています。言語設定をChasenにするとエラーは出ません。Mecab本体についても起動ができなくなっていましたが、「mecabrc」を手順1で編集する前の状態に戻すと起動できるようになります。

手順1では、「C:\Program Files\MeCab\etc\mecabrc」の「dicdir = $(rcpath)\..\dic\ipadic」という箇所を、ワードパッドを用いて「dicdir = $(rcpath)\..\..\UniDic-EMJ\dic\unidic-mecab」へと変更し、上書き保存を行いました。

手順通りに設定の変更を行ったはずなのですが、何がいけなのでしょうか?
ご教授いただければ幸いです。

・KH Coderのバージョン…3.Alpha.13g
・KH Coderのインストール先フォルダ…CWD:C:/khcoder3
・PCのOS…Windows 10 Home、バージョン1803


  [No.3772] Re: プロジェクトの新規作成時のエラー(hinshi_mecabの文字コード) 投稿者:HIGUCHI Koichi  投稿日:2018/08/09(Thu) 18:03:16

こんにちは、樋口です。書き込みありがとうございます。

当該のFAQ項目を書いたのは随分前ですので、その後Unidicの仕様が変わって
いれば、それに合わせないといけないところがあるかもしれません。


さて、添付していただいたのは、前処理ではなく、プロジェクト新規作成の際
に発生したエラーでしょうか? 次回からは、どの操作を行なった時に出たエ
ラーかもお知らせいただけますと助かります。

見たところ、KH Coderの品詞設定ファイル(C:\khcoder3\config\hinshi_mecab)
の読み込みに失敗しているのではないかと思います。このファイルの文字コード
は元通りUTF-8(BOMなし)のままにしておく必要があります。このファイルの文
字コードが何になっているか、ご確認いただけますでしょうか。

なお、こうしたファイルを編集する際にワードパッドを使用することは避けて
ください。秀丸やサクラエディタのようなテキストエディタをお使いいただく
方が安全です。またファイルの文字コード(エンコード)も確認しやすいかと
存じます。


  [No.3773] Re: MeCab本体の起動(mecabrcの編集) 投稿者:HIGUCHI Koichi  投稿日:2018/08/09(Thu) 18:20:34

こんにちは、樋口です。書き込みありがとうございます。

確かに、MeCab本体が起動しないようでは、前処理は行なえません。

> 「dicdir = $(rcpath)\..\..\UniDic-EMJ\dic\unidic-mecab」へと変更し、
> 上書き保存を行いました。

この「mecabrc」の変更ですが、実際にこの場所に古文の辞書があるかどうか、
お分かりになりますでしょうか?

あるいは、古文用UniDicにもいろいろありますが、どのUniDicをインストール
されたのでしょうか? またインストール先(古文用UniDicの「dicrc」ファ
イルがあるパス)はどこでしょうか? パスとはコンピュータ内の住所のよう
なもので、たとえば「C:\Program Files\UniDic-EMJ\dic\unidic-mecab\dicrc」
というような形であらわします。

上記の「mecabrc」変更箇所では、実際に「dicrc」が置いてあるパスを指定す
る必要があります。また「C:\Program Files」のようなスペースを含む場合、
ダブルクォートで括って指定しなくてはいけないだろうと思います。

実際のインストール先を指定して「mecabrc」を上書き保存してから、MeCab本
体が起動してみるかどうか試してみるといかがでしょう。なお、このファイル
の編集についてもワードパッドの使用は避けて下さい。かならず秀丸かサクラ
エディタのようなテキストエディタをお使い下さい。

(ワードパッドで上書き保存した場合、すでにファイルが壊れているかもしれ
ません。この場合はKH Coder・MeCab・UniDicなどすべてを削除してから再イ
ンストールするのが安全かもしれません)


  [No.3774] Re: MeCab本体の起動(mecabrcの編集) 投稿者:   投稿日:2018/08/10(Fri) 10:27:28

樋口先生

ご返信ありがとうございます。至らぬ点が多くあり申し訳ございません。
今回のエラーはプロジェクト新規作成時に発生したエラーです。

KH Coderの品詞設定ファイルの文字コードですが、UTF-8ではない文字コードで開いてしまっていたようです。

古文用UniDicは中古和文UniDicをインストールしています。Windows(C:)のProgram Filesにインストールされていました。パスは「Windows(C:)\Program Files\UniDic-wabun_1603(1)\UniDic-wabun_1603\dicrc」でした。

品詞設定の文字コードをUTF-8に変更しました。また、FAQの手順3に示されていた「C:\Program Files\UniDic-EMJ\dic\unidic-mecab\dicrc」ではなく、上記のパスに変更し、手順4〜6の通り進めたところ、前処理を行えるようになりました。ただ、辞書の品詞設定が上手くできていないようで、「固有名詞・人名・タグ・感動詞・副詞・副詞B・否定助動詞」のみ抽出されてしまっているため、設定を変更する必要がありそうです。ファイルの編集にはサクラエディタを用いました。

エラー表示やMecabが起動できない問題は解決することができました。ありがとうございます。


  [No.3775] Re: 品詞設定について(hinshi_mecabの内容) 投稿者:HIGUCHI Koichi  投稿日:2018/08/10(Fri) 16:29:54

こんにちは、樋口です。書き込みありがとうございます。

> 「固有名詞・人名・タグ・感動詞・副詞・副詞B・否定助動詞」のみ抽出

おそらくは、UniDicの品詞名に変更があったのかなと思います。

前処理の完了時にコンソール画面に「Morpho file: ○○」のような表示が出
ると思います。この○○というファイルをサクラエディタで開いてみてくだ
さい。そして、品詞名を眺めてみてください。

以前の「hinshi_mecab」ファイルの内容は、たとえば「名詞-普通名詞-一般」
という品詞名があることを想定して準備していました。「名詞-普通名詞-一
般」という品詞名があれば、KH Coderでは「名詞」として扱う、というような
ルールを「hinshi_mecab」に記述しています。

このため、もしもUniDicの品詞名が「名詞-普通-一般」に変わっていたとした
ら、手順6の「hinshi_mecab」ファイルの編集時には「名詞-普通-一般」と書
かなくてはなりません。もしも品詞名にコンマが含まれる場合はダブルクォー
ト「"」で括る必要があります。

「hinshi_mecab」ファイルの一般的な書き方についてはマニュアルのA.2.2節
(表A.3付近)をご覧ください。※最新版マニュアルでの表番号です。

「hinshi_mecab」の内容を「こう変えたら上手くいく」ということが分かりま
したら、もしよろしかったら内容をここでお教えいただけますと幸いです。


  [No.3776] Re: 品詞設定について(hinshi_mecabの内容) 投稿者:   投稿日:2018/08/11(Sat) 14:47:20

樋口先生

お返事ありがとうございます。

「Morpho file: ○○」を開いてみたところ、
手順6の「hinshi_mecab」ファイルの編集後と比較して
「hinshi_mecab」に見受けられない品詞がありました。

上手く抽出されるように品詞を変更してみます。
成功しましたら再度掲示板に投稿させて頂きます。

宜しくお願い致します。


  [No.3777] Mecabの起動 投稿者:   投稿日:2018/08/13(Mon) 10:56:56

Mecabの起動 (画像サイズ: 1122×507 75kB)

樋口先生

お忙しいところ申し訳ございません。

UniDicの辞書を中和古文から中世文語に変更しようと考え、同様にFAQの手順を追って辞書などの設定の変更を試みたのですが、Mecabが起動できなくなってしまいました。

まずmecabrcをサクラエディタで編集し、「dicdir = $(rcpath)\..\dic\ipadic」という箇所を、「dicdir = C:\"Program Files"\UniDic-wakan_1603\dicrc」へと変更しました。

次に中世文語のdicrcをサクラエディタで開き、末尾に
node-format-chasen = %m\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen = %m\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen = EOS\n
の三行を追加しました。

その後手順5・6を行いました。Mecabのパスは「C:/Program Files (x86)/MeCab/bin/mecab.exe」で、Mecabが存在するファイルを指定できています。この状態で前処理を実行しようとしたのですが、Mecabを起動できないエラーが発生してしまいます。(画像2)
mecabrcの書き方に問題があるのでしょうか。


  [No.3778] Re: Mecabの起動 投稿者:HIGUCHI Koichi  投稿日:2018/08/13(Mon) 11:56:12

こんにちは、樋口です。書き込みありがとうございます。

> 「dicdir = C:\"Program Files"\UniDic-wakan_1603\dicrc」へと変更

dicdir = "C:\Program Files\UniDic-wakan_1603"

または

dicdir = C:\Program Files\UniDic-wakan_1603

で、お試しいただくといかがでしょう。


  [No.3779] Mecab起動できました 投稿者:   投稿日:2018/08/13(Mon) 12:43:01

樋口先生

御返事ありがとうございます。

どちらも試したところ起動できなかったので、スペースを消去し、「dicdir=C:\Program Files\UniDic-wakan_1603」で起動できるようになりました。

初歩的なことで申し訳ありません。
ありがとうございます。


  [No.3787] 品詞設定について 投稿者:   投稿日:2018/08/20(Mon) 12:10:11

樋口先生

投稿が遅くなってしまい申し訳ありません。
「hinshi_mecab」の内容について、以下のように編集したところ上手く抽出できるようになりました。ただ、私がコンソール画面の「Morpho file: ○○」を参考に編集したものですので、抜け漏れがある可能性もあります。うまくいかない部分がありましたら、補足して頂ければと思います。

宜しくお願い致します。

hinshi_id,kh_hinshi,condition1,condition2
7,地名,名詞-固有名詞-地名
6,人名,名詞-固有名詞-人名
4,固有名詞,名詞-固有名詞
2,サ変名詞,名詞-普通名詞-サ変可能
3,形容動詞,名詞-普通名詞-形状詞可能
3,形容動詞,形状詞-タリ
19,副詞B,名詞-普通名詞-副詞可能,ひらがな
15,副詞,名詞-普通名詞-副詞可能
19,副詞B,副詞,ひらがな
15,副詞,副詞-一般
16,名詞B,名詞-普通名詞-一般,ひらがな
20,名詞C,名詞-普通名詞-一般,一文字
1,名詞,名詞-一般
9,副詞可能,名詞-普通名詞-副詞可能
12,感動詞,感動詞
17,動詞B,動詞-動詞-非自立可能,ひらがな
13,動詞,動詞-一般
14,形容詞,形容詞-一般,ひらがな
14,形容詞,形容詞-一般
22,形容詞(非自立),形容詞-非自立可能
23,形容動詞,名詞-形容動詞語幹
21,否定助動詞,助動詞,否定
10,未知語,未知語
99999,HTMLタグ,タグ,HTML
11,タグ,タグ
24,形状詞,形状詞-一般


  [No.3788] Re: 品詞設定について 投稿者:HIGUCHI Koichi  投稿日:2018/08/22(Wed) 23:27:24

こんにちは、樋口です。
品詞設定ファイルについてお知らせいただき大変ありがとうございます。

少し古いものですが、UniDicの品詞分類がこちらに載っているようです。
https://www.ogiso.net/wiki/index.php?%BC%F8%B6%C8%BB%F1%CE%C1%2FUniDic%A4%CE%C9%CA%BB%EC%C2%CE%B7%CF

強いて申しますと、以下のような修正を行なっても良いかもしれません。

> 1,名詞,名詞-一般

この定義は、大丈夫でしょうか? 「名詞」として抽出されている語はござい
ますか?

もしかすると「名詞-普通名詞-一般」ではないかとも思えます。

> 3,形容動詞,名詞-普通名詞-形状詞可能
> 3,形容動詞,形状詞-タリ

これらの行は機能していると思うのですが、「24,形状詞,形状詞-一般」では
KH Coder上での品詞名として形状詞を定義していますから、これらの語も
形状詞にまとめても良いかもしれません。ただ、この点は古文の知識がないと
私では判断が難しい所です。

あと、「否定助動詞」は上手く取り出せていないと思うので、行ごと削除して
おいていただくと良いかもしれません。


  [No.3797] Re: 品詞設定について 投稿者:   投稿日:2018/09/03(Mon) 12:13:52


樋口先生

確認が遅れてしまい大変申し訳ございません。

> 1,名詞,名詞-一般

についてですが、確かに抽出されていませんでした。
ご指摘いただいた通り、「1,名詞,名詞-普通名詞-一般」
として品詞設定を行ったところ、正しく抽出されるようになりました。

細かな点までご指摘頂きありがとうございます。