[掲示板へもどる]
一括表示

  [No.3530] 対応分析のプロット上に同じ単語に”.1”がついてしまう 投稿者:ナカイマ  投稿日:2018/03/12(Mon) 09:02:38
対応分析のプロット上に同じ単語に”.1”がついてしまう (画像サイズ: 640×640 21kB)

樋口先生おはようございます。
現在海外の学校でコミュニケーションを勉強しておりますナカイマと申します。

突然ですが、対応分析の表についてひとつ質問させてください。
添付した画像を見て頂けると確認できるかと思いますが、visitとvisit.1と同じような単語が2度表示されてしまいます。
このようになる理由をもしご存知でしたら教えて頂けないでしょうか?

KWICで"visit.1"と検索してもひとつも出てこなかったので元のデータそのものにはそのような文字列が入っているわけではないと思うのですが、どうにもほかにどうすればいいのかわかりません。

お時間あるときにご教示願えませんでしょうか?


  [No.3531] Re: 対応分析のプロット上に同じ単語に”.1”がついてしまう 投稿者:HIGUCHI Koichi  投稿日:2018/03/12(Mon) 09:29:17

こんにちは、樋口です。書き込みありがとうございます。

本掲示板をお使いくださるすべての皆様にお願いしたいのですが、エラー・不
具合やその他ご質問の際には、お使いのKH Coderのバージョンをお書き下さい。
KH Coderのバージョンはメニューの「ヘルプ」「KH Coderについて」で確認で
きます。


さて、KH Coder 3の場合はメニューから「Tools」「Words」「Frequency List」
を、KH Coder 2の場合は「Tools」「Words」「Search Words」をクリックして
ください。そして「visit」を検索してみて下さい。品詞違いの「visit」が2つ
ないでしょうか?

おそらくは「Stanford POS Taggerが品詞違いのvisitが2種類あるよ」と報告し
てきたので、KH Coderはそのまま受け入れてvisitが2種類と見なしているのだ
と思います。Rでプロットを作成する際には、この2種類を区別できないと内部
的にまずいので、「.1」を付して識別しています。


対策はちょっと難しいかもしれません。

(1) KH Coder 3ならStanford POS TaggerではなくFreeLingを試してみても良い
かもしれません。それでもダメなら、(2) 手作業で編集してから、マニュアル
A.10.5節「形態素解析の結果を再読み込み」コマンドを使うのが一手かもしれ
ません(かなり面倒と思いますが)。あとは、(3) 同義語定義の方法を使える
かどうか、というところです。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1010&mode=allread


  [No.3533] Re: 対応分析のプロット上に同じ単語に”.1”がついてしまう 投稿者:ナカイマ  投稿日:2018/03/13(Tue) 01:28:02


樋口先生こんにちは。返信ありがとうございます。

大変失礼しました。KH coder 2を使用しております。

樋口先生のおっしゃる通り名詞と動詞のVisitがありました。
Viewなど他にも同じケースが多くあるので、KHコーダー3でFreeLing試してみます。

どうもありがとうございました。


  [No.3534] Re: KHコーダー3での前処理に関するエラーについて 投稿者:ナカイマ  投稿日:2018/03/14(Wed) 05:01:09

Re: KHコーダー3での前処理に関するエラーについて (画像サイズ: 475×377 74kB)


樋口先生こんにちは。
先日こちらの投稿で質問させていただきましたナカイマです。樋口先生がお答えくださったようにKHコーダー3 (3. Alpha.12c, Perl/Tk 804.03, windows版)をダウンロードさせて頂いて、もう1度先日相談した対応分析の問題を解決しようと思ったのですが、そこに至る前にに2つほど問題が出てしまいました。お時間ある時に下記のエラーに対する解決法をご教示頂けませんでしょうか?

1. Freelingで新規プロジェクトの前処理を進めることができません。"Error: Could not start FreeLing sever process!" という画面が現れて前処理が実行できません。また分析対象ファイルのチェックもクリックできません。一度アンインストールをして再度試してみましたが同じ結果でした。ダウンロード時のファイルに同梱されているbochan_en.txtでも試してみましたがこのファイルでも同じ画面が現れFreelingが使えません。

2. 次にStanford POS Taggerでもプロジェクト立ち上げ前処理を実行しましたが、今度は2つめの写真のように128文字以上は認識できないとのエラーが出ました。bochan.txtで試してみたらこの場合は何事もなく前処理を終えることができました。しかしファイルを変えると同じ結果になってしまいます。ちなみにこの場合も分析対象ファイルのチェックはクリックできません。

他の方の投稿も一通り見てみましたが同じエラーに関する投稿が見つけられないので、もし何か方法をご存知でしたらご教示頂けたらと思っております。

よろしくお願い致します。


  [No.3535] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:HIGUCHI Koichi  投稿日:2018/03/14(Wed) 05:11:25

こんにちは、樋口です。書き込みありがとうございます。

現在の所、日本語以外のデータでは、「分析対象ファイルのチェック」はでき
ません。含まれているとまずい文字(「<」や「>」)はご自身で削除していた
だく必要があります。

FreeLingが起動しないときのコンソール画面の表示内容をお教えいただくこと
はできますでしょうか? コンソール画面とは、通常は最小化されている、黒
背景に白文字のウィンドウのことです。内容のコピー&ペーストでも、スクリ
ーンショットでも、どちらでも助かります。また、お書きいただいた"Error:
Could not start FreeLing sever process!"以外には、何かエラーやメッセー
ジはでていますか?

Stanford POS Taggerの方ですが、「とても長い語があったので、最初の128字
だけ記録するよ」ということで、別にエラーではありません。分析を続行でき
ます。気になる場合は、画面に書いてあるファイルを開いてみてください。ど
んな内容でしょう? kh_coder.exeがある場所から、「config」「khc12」
とフォルダをたどり、「khc12_dmp.txt」をダブルクリックすると、どんな内容
になっていますか?

ちなみに、「とても長い語」のファイルは、KH Coder 2では何のメッセージも
なしに前処理が完了したのでしょうか? それともKH Coder 3でのみ前処理を
行なったファイルでしょうか?


  [No.3537] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:   投稿日:2018/03/14(Wed) 07:48:53

Re: KHコーダー3での英語データ前処理に関するエラーについて (画像サイズ: 1278×759 84kB)

樋口先生、早速のお返事ありがとうございます。

「分析対象ファイルのチェック」の件ご教示頂きありがとうございます。

FreeLingのエラーの件についてですが、エラーメッセージが表示されているときのスクリーンショットを添付しました。
もしもっと上に書かれている情報も必要でしたらお知らせくださいますでしょうか?
"Error: Could not start FreeLing sever process!"以外にはそのメッセージのウィンドウに3つ選択肢があって、"ok","skip messages"そして"keep track"が表示されているのみです。

Stanford POS Taggerの方ですが、表示されているパスをたどってファイルを開いてみると"https://www.tripadvisor.com/attraction_review-g143034-d131308-reviews-kilauea_iki_trail-hawaii_volcanoes_national_park_island_of"と書いてあるだけで、これは中のファイルのデータの内容ではありません。
ちなみにデータの中身はトリップアドバイザー上のレビューコメント、レビュータイトル、レビューが書かれた日付と5段階評価のみで特にURLなどは入っていません。もしそちらの方も確認してみたいとのことでしたらemailで送信できますのでお知らせ頂けると助かります。
この問題はKH Coder 3でのみ起こっています。KH Coder 2では何のメッセージも
なしに前処理が完了しました。

もしこれらから何かできそうなことがございましたら何卒ご教示お願いします。


  [No.3540] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:HIGUCHI Koichi  投稿日:2018/03/14(Wed) 13:32:49

こんにちは、樋口です。書き込みありがとうございます。

> FreeLing

現在のKH Coderは、半角スペースや全角文字を含む名前のフォルダに入れると
機能しません。おそらく現在はデスクトップの「KH Coder」というようなフォ
ルダに解凍していただいているものと思います。デフォルトの「C:\khcoder3」
か、あるいはその他の半角英数のみの名前のフォルダに解凍し直してお試しい
ただくと、動作するのではないかと思います。

> 「とても長い語」

うーん、データ中のどこかに「http...」のようなURLがあったのではないかと
思うのですが、ないでしょうか。ちなみに、データはExcel形式でしょうか。
もしExcel形式なら、ExcelからCSV形式で保存してからKH Coderに登録すると
いかがでしょう。


  [No.3542] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:   投稿日:2018/03/14(Wed) 21:36:59

Re: KHコーダー3での英語データ前処理に関するエラーについて (画像サイズ: 417×155 9kB)


樋口先生こんばんは。返事が遅くなってしまい申し訳ございません。
現在欧州在住なので時差の関係でパソコン上にいる時間帯がずれていると思いますので、返事が遅くなることがあるかもしれません。
何卒お許しください。

Freelingに関して、ご指摘の通りファイル名をkhcoder3と全角文字、半角スペース共になしに書き換えてみましたが今度は写真のような画面が現れました。
この画面は最初にKHcoder3を試したときにでたもので、再度ダウンロードは試してみたので他に原因があるのではないかと考えています。

「とても長い語」に関してですが、もう一度データを確認してみてもurlは見当たりません。先生の仰る通りエクセルを使用しておりますので、csv形式で保存して試してみましたが今度はプロジェクトとして読み込めません。
またコンマで分けたものも行として認識されません。

もし他にも何か試せることがございましたらご教示頂きますよう、何卒お願いいたします。


  [No.3543] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:HIGUCHI Koichi  投稿日:2018/03/14(Wed) 21:49:22

こんにちは、樋口です。書き込みありがとうございます。

いえいえ、私の方では、お返事まったく急ぎません。

> FreeLing

エラーメッセージが出たら、その中に書いてある言葉を検索してみると、解決
のヒントが見つかる場合が多くあります。

今回の場合は「MSVCR120.dll」で検索すると、こちらのページが見つかります。
解決法も書いてあるようです。
https://blog.halpas.com/archives/10373

なお添付のFreeLingは32bitですので、vcredist_x86.exeの方をお使い下さい。

> 「とても長い語」に関してですが、もう一度データを確認してみてもurlは
> 見当たりません。

目で見るのではなく、「http」を検索なさっていますか?

> エクセルを使用しておりますので、csv形式で保存して試してみましたが今
> 度はプロジェクトとして読み込めません。

うーん、具体的には、どんなエラーが出るのでしょう?

なお、必ずしもCSVにこだわらなくても、Excelにも2種類あって、.xlsと.xlsx
があります。もし現在は.xlsxなら、.xlsで保存して試してみるのも一手かと
思います。


  [No.3544] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:   投稿日:2018/03/15(Thu) 00:19:13

Re: KHコーダー3での英語データ前処理に関するエラーについて (画像サイズ: 361×191 6kB)

樋口先生こんばんは。返信ありがとうございます。

MSVCR120.dllの件解決しました。ありがとうございます!
httpの件ですが検索してみると、、、データの中に含まれていました。私の不注意でしたすみません。

xls形式で保存してみるとstanford POS Taggerはバージョン2と同じように問題なく作動しました。ですが、
対応分析をしてみると同じ単語が2度あらわれる当初の問題もそのまま現れているのでなんとかFreeLingを試してみたいと思っています。

xls形式でFreeLingの前処理ももちろん試してみましたが、なぜか前処理が終わりません。30分近く待ちましたが終わらなかったので、やりなおしてみましたが同じ結果でした。
Stanford POS Taggerで登録されているプロジェクトを編集でFreeLingに切り替えて前処理を実行してみると画像のようなエラーがでました。

何か他に試せることがご存知でしたらご教示頂けませんでしょうか?

よろしくお願い致します。


  [No.3545] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:HIGUCHI Koichi  投稿日:2018/03/15(Thu) 00:32:05

こんにちは、樋口です。書き込みありがとうございます。

一度に一歩ですが、着実に進んではいるようですね。

> xls形式でFreeLingの前処理ももちろん試してみましたが、
> なぜか前処理が終わりません。

Stanford POS Taggerよりも時間がかかるのは通常の現象です。異常ではあり
ません。

タスクマネージャーを起動して、CPU使用率を見てみると、どんな感じでしょ
う? 前処理開始によってCPU使用率がある程度(※1)上がり、その状態が続
くようなら正常です。CPU使用率が0付近のままになり、それでも処理が終わら
なかったら異常です。この場合は、コンソール画面を見せていただけると何か
分かるかもしれません。また、この事象が発生した場合、一度Windowsを再起
動してお試しいただくとよいかもしれません。

※1 仮に論理プロセッサ数が8のCPUであれば、100 ÷ 8 ≒ 12.5%程度まで
CPU使用率が上がれば正常です。


> 同じ単語が2度あらわれる当初の問題

もっとも、FreeLingにすれば必ずこれが解決するかどうかはなんとも言えない
ところではあります。抽出語リスト上でvisitを検索し、2種類(名詞と動詞)
をクリックするとそれぞれのKWICが出ますので、ご覧いただくといかがでしょ
う? Stanford POS Taggerが間違って2種類に分けてしまっているのでしょう
か? それとも実際に動詞と名詞があるのでしょうか? もし後者だとすると
FreeLingでも同じ結果になる恐れはあります。


  [No.3546] Re: KHコーダー3での英語データ前処理に関するエラーについて 投稿者:ナカイマ  投稿日:2018/03/15(Thu) 01:33:29

Re: KHコーダー3での英語データ前処理に関するエラーについて (画像サイズ: 640×640 26kB)

樋口先生こんばんは。
早速のご返信ありがとうございます。

1度Snowball stemmerで試してみると、何と当初の問題解決しました!"by", "the"など余計なものも混ざっていますが、その点はStopwordsを登録すれば取り除けるかと思います。ありがとうございました!

ご指摘の点についてですが、visitの名詞と動詞のKWICに関して、間違っているものもありましたが、9割ほどは分類としては正解ですので両方の用法は確実にデータに含まれています。ですので、ご指摘の通りFreeLingが起動できても難しかったかもしれません。

CPUの件ですが、現在学校のパソコン(Windows)で起動しておりましてタスクマネージャーがAdminによって無効化されて確認不可能でした(泣)

しかし、一旦Snowball Stemmerで当初の問題は解決できたのでこのまま分析を進めて行こうと思います。重ね重ねサポートありがとうございました。