[掲示板へもどる]
一括表示

  [No.945] Excel データに対する「文書×抽出語」表出力 投稿者:橋本  投稿日:2012/05/03(Thu) 22:13:23

橋本と申します。 KH Coderはまだ利用してから一ヶ月経っていない初心者ですので、基本的なことであったら申し訳ございません。

現在、Excelデータで30,000行程度の文章データ(各セルに文章が入力されています)を解析しています。

最終的には、30,000行の言語分解済みデータにしたいのですが、「文書×抽出語」表の出力をすると15,000行程度に縮小してしまいます。 
原因は分かりません。

解決策があれば教えて頂ければ幸いです。 宜しくお願い致します。


  [No.946] Re: Excel データに対する「文書×抽出語」表出力 投稿者:HIGUCHI Koichi  投稿日:2012/05/04(Fri) 00:24:41

こんにちは、樋口です。書き込みありがとうございます。

KH Coderのメイン画面では、ケース数はいくつになっているでしょうか?

メイン画面というのは、最初に出てくる画面で、上部に「プロジェクト」「前
処理」「ツール」などのメニューがある画面です。

「文書の単純集計:」の箇所で、「段落」の「ケース数」をみてください。本
来は、ここで表示された数と、入力ファイルの行数、出力した「文書×抽出語」
表の行数が一致するはずなのですが、一致状況はいかがでしょう?


  [No.947] Re: Excel データに対する「文書×抽出語」表出力 投稿者:橋本  投稿日:2012/05/04(Fri) 19:47:23

樋口様、

ありがとうございます。ここの部分が一致していないようです。
原データでは28、733行あるのですが、ケース数は文34、255 段落12、679となってしまいます。

ちなみに各段落の文章は下記かっこ内
「数字(段落数) ・文 ・文」 
といった構成となっています。


  [No.948] Re: Excel データに対する「文書×抽出語」表出力 投稿者:HIGUCHI Koichi  投稿日:2012/05/04(Fri) 20:34:56

こんにちは、樋口です。書き込みありがとうございます。

データを読み込んだ時点で、ケース数が減っているようですね。

まず、KH Coderは「分析対象ファイル」内の空行は「存在しないもの」とみな
しますので、空行があるとケース数が減ります。

また、Excel由来のデータでしたら、Excelのclean関数およびjis関数を通すこ
とで、制御文字の削除と、全角文字への変換を行うと、改善するかもしれませ
ん。

また、KH Coder上で「分析対象ファイルのチェック」を行い、問題がないかど
うか確認してみるのも良いでしょう。

※「分析対象ファイル」を修正した場合は、その結果を反映させるために、再
度「前処理の実行」を行って下さい。


以上を試しても上手くいかない場合は、「ツール」「テキストファイルの変形」
「HTMLからCSVに変換」とたどり、「段落」を選択してください。そして、出力
されたファイルと、入力ファイルを見比べ、どんな行(段落)が無くなってい
るのかを見てみて下さい。無くなっている行に、なんらかの共通性があれば、
それが原因でしょう。

ひとまず、以上をお試しいただけましたら幸いです。


  [No.949] Re: Excel データに対する「文書×抽出語」表出力 投稿者:橋本  投稿日:2012/05/04(Fri) 21:33:38

樋口様、

jis関数は既に使用していたのですが、この度頂いたアドバイスを元にclean関数を合わせて使用したところ、無事に解析することができました。
ご丁寧に対応して頂きありがとうございました。

橋本