[掲示板へもどる]
一括表示

  [No.2434] ケース数について 投稿者:sintani  投稿日:2016/03/11(Fri) 11:35:37

質問失礼します。

txtでもexcelファイルでも、コーディング単位を文にして集計すると、文章のケース数がどの段落でも実際のものより1つ多くカウントされてしまうのですが、これは仕様なのでしょうか。


  [No.2435] Re: 「文」の数について(特にExcelデータ読み込み時) 投稿者:HIGUCHI Koichi  投稿日:2016/03/11(Fri) 12:47:49

こんにちは、樋口です。書き込みありがとうございます。

文単位で集計する場合には、h1からh5のタグでくくられた見出しも、1文と数え
る仕様のことでしょうか?

確かに、Excelからデータを読み込んだ場合には、セルを区切るための見出しが
自動挿入されますから、これを1文と言われるのは違和感がありますね。

長期的には改善を考えたいと思いますが、ちょっと時間がかかると思います。
これを避けたい場合には、段落・H5単位での集計を行なっていただくか、見出し
行を使わず改行でケース(文書)を区切ったテキストファイルを入力としてお使
い下さい。

※セル内の改行をClean関数で削除した後、Excelからテキストエディタにデータ
をコピー&ペーストすれば、この形式のテキストファイルになります。空白セル
は行ごと削除するか、「<欠損値>」のように入力しておいてください。また変数
は別のファイルとして保存&読み込みしてください。


  [No.2436] Re: 「文」の数について(特にExcelデータ読み込み時) 投稿者:sintani  投稿日:2016/03/11(Fri) 19:33:07

返信ありがとうございます。


> 文単位で集計する場合には、h1からh5のタグでくくられた見出しも、1文と数える仕様のことでしょうか?

はい、そのことです。仕様だったのですね。
示してもらった解決法を試してみます。ありがとうございました。


  [No.2437] Re: 「文」の数について(特にExcelデータ読み込み時) 投稿者:HIGUCHI Koichi  投稿日:2016/03/11(Fri) 22:18:21

こんにちは、樋口です。書き込みありがとうございます。

詳しくはマニュアルのA.2.1節およびA.3.1節をご覧ください。

Excel / CSV形式のデータについては、セル単位で集計・分析が行なわれるこ
とが多いだろうと考えていたので、これまでは見出しの自動挿入に疑問を持っ
ていませんでした。

しかし言われてみればもちろん文単位の集計もあり得ますから、ちょっと改善
案を考えたいと思います。


  [No.2438] Re: 対策しました 投稿者:HIGUCHI Koichi  投稿日:2016/03/16(Wed) 01:13:12

こんにちは、樋口です。

H1からH5タグで括った見出し文を、1つの「文」と数えるのかどうかという件
ですが、先ほどリリースした3.Alpha.07で対策を行ないました。

基本的にKH Coderは、見出し文を1つの「文」として数えます。

しかしExcelデータを読み込んだときや、多数のテキストファイルを自動的に
1つにまとめた時には、データを区切るために、自動的に見出し文が挿入され
ます。こうした自動挿入された単なる区切り(章や節・記事などのタイトル
とは違って内容のないもの)は、文として数えないようにしました。

詳細は同梱マニュアルのA.2.1節、「それぞれの単位でのコーディングや検索」
の項をご覧ください。

自動挿入されたものに限らず、問答無用で、すべての見出しを「文」と見なさ
ないようにする方法も記載しています。