橋本と申します。 KH Coderはまだ利用してから一ヶ月経っていない初心者ですので、基本的なことであったら申し訳ございません。現在、Excelデータで30,000行程度の文章データ(各セルに文章が入力されています)を解析しています。最終的には、30,000行の言語分解済みデータにしたいのですが、「文書×抽出語」表の出力をすると15,000行程度に縮小してしまいます。 原因は分かりません。解決策があれば教えて頂ければ幸いです。 宜しくお願い致します。
こんにちは、樋口です。書き込みありがとうございます。KH Coderのメイン画面では、ケース数はいくつになっているでしょうか?メイン画面というのは、最初に出てくる画面で、上部に「プロジェクト」「前処理」「ツール」などのメニューがある画面です。「文書の単純集計:」の箇所で、「段落」の「ケース数」をみてください。本来は、ここで表示された数と、入力ファイルの行数、出力した「文書×抽出語」表の行数が一致するはずなのですが、一致状況はいかがでしょう?
樋口様、ありがとうございます。ここの部分が一致していないようです。原データでは28、733行あるのですが、ケース数は文34、255 段落12、679となってしまいます。ちなみに各段落の文章は下記かっこ内「数字(段落数) ・文 ・文」 といった構成となっています。
こんにちは、樋口です。書き込みありがとうございます。データを読み込んだ時点で、ケース数が減っているようですね。まず、KH Coderは「分析対象ファイル」内の空行は「存在しないもの」とみなしますので、空行があるとケース数が減ります。また、Excel由来のデータでしたら、Excelのclean関数およびjis関数を通すことで、制御文字の削除と、全角文字への変換を行うと、改善するかもしれません。また、KH Coder上で「分析対象ファイルのチェック」を行い、問題がないかどうか確認してみるのも良いでしょう。※「分析対象ファイル」を修正した場合は、その結果を反映させるために、再度「前処理の実行」を行って下さい。以上を試しても上手くいかない場合は、「ツール」「テキストファイルの変形」「HTMLからCSVに変換」とたどり、「段落」を選択してください。そして、出力されたファイルと、入力ファイルを見比べ、どんな行(段落)が無くなっているのかを見てみて下さい。無くなっている行に、なんらかの共通性があれば、それが原因でしょう。ひとまず、以上をお試しいただけましたら幸いです。
樋口様、jis関数は既に使用していたのですが、この度頂いたアドバイスを元にclean関数を合わせて使用したところ、無事に解析することができました。ご丁寧に対応して頂きありがとうございました。橋本