[掲示板へもどる]
一括表示

  [No.3287] 強制抽出・使用しない語について 投稿者:山下  投稿日:2017/11/22(Wed) 13:42:39

初めまして、卒業論文でKHcoderを使わせて頂いています。
全国紙のデータベースからお借りしたテキストを分析するにあたり、
不要な定型文を除外できず困っています。

これまで

2.00f、3a10mの両方を、
大学内と自宅PC(Win7)のCドライブにインストール
しましたが、

いずれも強制抽出・使用しない語が反映されず茶筅・TermExtractの複合語リストに表示されてしまいます。

記事データは11000〜19800KBですが、20KBほどに切り取ったテキストでも同様の結果になります。

kokoro2.txtのチュートリアルでもKの強制抽出ができませんでした。

ドライブ空き容量は20GB以上、メモリも4GB以上あります。

原因や解決策がありましたらよろしくお願いいたします。


  [No.3288] Re: 強制抽出・使用しない語と「複合語の検出」について 投稿者:HIGUCHI Koichi  投稿日:2017/11/22(Wed) 14:12:49

こんにちは、樋口です。書き込みありがとうございます。

「複合語の検出」コマンドは、どんな言葉を強制抽出すべきか判断する材料
という趣旨で準備したものです。こうした性格から、「強制抽出」や「使用し
ない語」の指定をあえて無視して、もとのデータから複合語の候補を探すよう
にしています。

つまり、「複合語の検出」結果に対しては、「強制抽出」や「使用しない語」
の指定は反映されません。それで正常です。例えば抽出語リストのような、
「複合語の検出」以外の分析結果には反映されるはずです。

なおKの強制抽出については、全角の「K」である点にご注意ください。この
「K」をコピー&ペーストしてお使いいただくといかがでしょう。


  [No.3290] Re: 強制抽出・使用しない語と「複合語の検出」について 投稿者:山下  投稿日:2017/11/23(Thu) 23:40:59

樋口先生

私が仕様を勘違いしていました。元データのノイズはテキストエディタで編集することで全て解決致しました。お騒がせして申し訳ありません。

この度は迅速な返信と丁寧なご教示ありがとうございました。


  [No.3292] Re: 強制抽出・使用しない語と「複合語の検出」について 投稿者:HIGUCHI Koichi  投稿日:2017/11/24(Fri) 16:56:43

こんにちは、樋口です。書き込みありがとうございます。

マニュアル類を見返してみたところ、今回の件は明確に記されておらず、分か
りにくかったと思います。失礼いたしました。

また何かありましたらご遠慮なくお知らせください。