Excel データに対する「文書×抽出語」表出力 [スレッド] KH Coder 旧掲示板

橋本と申します。　KH Coderはまだ利用してから一ヶ月経っていない初心者ですので、基本的なことであったら申し訳ございません。

現在、Excelデータで30,000行程度の文章データ（各セルに文章が入力されています）を解析しています。

最終的には、30，000行の言語分解済みデータにしたいのですが、「文書×抽出語」表の出力をすると15,000行程度に縮小してしまいます。　
原因は分かりません。

解決策があれば教えて頂ければ幸いです。　宜しくお願い致します。

■ [No.946] Re: Excel データに対する「文書×抽出語」表出力 投稿者：HIGUCHI Koichi 投稿日:2012/05/04(Fri) 00:24:41

こんにちは、樋口です。書き込みありがとうございます。

KH Coderのメイン画面では、ケース数はいくつになっているでしょうか？

メイン画面というのは、最初に出てくる画面で、上部に「プロジェクト」「前
処理」「ツール」などのメニューがある画面です。

「文書の単純集計：」の箇所で、「段落」の「ケース数」をみてください。本
来は、ここで表示された数と、入力ファイルの行数、出力した「文書×抽出語」
表の行数が一致するはずなのですが、一致状況はいかがでしょう？

■ [No.947] Re: Excel データに対する「文書×抽出語」表出力 投稿者：橋本投稿日:2012/05/04(Fri) 19:47:23

樋口様、

ありがとうございます。ここの部分が一致していないようです。
原データでは28、733行あるのですが、ケース数は文34、255　段落12、679となってしまいます。

ちなみに各段落の文章は下記かっこ内
「数字（段落数）　・文　・文」　
といった構成となっています。

■ [No.948] Re: Excel データに対する「文書×抽出語」表出力 投稿者：HIGUCHI Koichi 投稿日:2012/05/04(Fri) 20:34:56

こんにちは、樋口です。書き込みありがとうございます。

データを読み込んだ時点で、ケース数が減っているようですね。

まず、KH Coderは「分析対象ファイル」内の空行は「存在しないもの」とみな
しますので、空行があるとケース数が減ります。

また、Excel由来のデータでしたら、Excelのclean関数およびjis関数を通すこ
とで、制御文字の削除と、全角文字への変換を行うと、改善するかもしれませ
ん。

また、KH Coder上で「分析対象ファイルのチェック」を行い、問題がないかど
うか確認してみるのも良いでしょう。

※「分析対象ファイル」を修正した場合は、その結果を反映させるために、再
度「前処理の実行」を行って下さい。

以上を試しても上手くいかない場合は、「ツール」「テキストファイルの変形」
「HTMLからCSVに変換」とたどり、「段落」を選択してください。そして、出力
されたファイルと、入力ファイルを見比べ、どんな行（段落）が無くなってい
るのかを見てみて下さい。無くなっている行に、なんらかの共通性があれば、
それが原因でしょう。

ひとまず、以上をお試しいただけましたら幸いです。

■ [No.949] Re: Excel データに対する「文書×抽出語」表出力 投稿者：橋本投稿日:2012/05/04(Fri) 21:33:38

樋口様、

jis関数は既に使用していたのですが、この度頂いたアドバイスを元にclean関数を合わせて使用したところ、無事に解析することができました。
ご丁寧に対応して頂きありがとうございました。

橋本