段落数の不一致（増加）について [スレッド] KH Coder 旧掲示板

雑誌記事の分析をしたいと思い、12月8日分をダウンロードしました。
チュートリアル等みながら、格闘しているのですが、何度試してみても、段落数が増えます。（530→1100）

前処理の前段階で、ファイルのチェックを利用したところ、文章が長いものがある（1行）と、半角を含んでいるものがある、というエラーメッセージが出たので、修正しました。

雑誌記事なので、1つの段落が長いという特徴があるのですが、段落数をワード上で何度確認しても530ほどしかないのに、分析すると必ず1100程度に増えるので、困ってしまいました。
なぜでしょうか？

お忙しいところ大変恐縮ながら、解決策その他アドバイスをいただけませんでしょうか。
なにとぞよろしくお願い申し上げます。

■ [No.391] Re: 段落数の不一致（増加）について 投稿者：村田投稿日:2009/01/07(Wed) 02:22:10

追加です。
確認してみたところ、各記事は、5000字強です。
長すぎるのが原因ですか？
チュートリアルには、見出しが4000字以内とは書いてありますが、前処理でエラーを取り除いても、段落数が増えて実際の段落数と不一致になってしまいます。
困ってしまいました・・・

■ [No.392] Re: 段落数の不一致（増加）について 投稿者：HIGUCHI Koichi 投稿日:2009/01/07(Wed) 09:05:29

こんにちは、樋口です。書き込みありがとうございます。

解決策というわけではないのですが、「ツール」「テキストファイルの
変形」「HTMLからCSVに変換」を順にクリックして、単位の選択では「段
落」を選んで保存してみてください。

この操作によって、KH Coderが認識した「段落」ごとに、行をかえた（
改行した）CSVファイルが保存されます。保存されたCSVファイルをダブ
ルクリックすると、通常はExcelが起動して、内容が表示されます。

このCSVファイルを見て、どんなところで段落が増えているのかという規
則性、あるいは問題の原因を探してみていただけますでしょうか。

もし上記のCSVファイルが確認しにくいようでしたら、KH Coderの「文書
検索」画面で、検索単位を「段落」に、デフォルトで「and」となってい
る部分を「code」にしてから、「No. == 1」と入力して検索します。検
索結果をダブルクリックして「文書表示」画面を開き、「直後の文書」
をクリックしていくことで、段落を1つ1つ確認することができます。

p.s.
今のところ、長い段落が勝手に分割され（て段落数が増え）るというよ
うな問題は、確認できておりません。

あと、KH Coderはデータ中に改行があると、そこで段落を区切ります。
したがって、Wordですと「段落数」よりもむしろ「行数」と一致するか
どうかをご確認下さい。多くの場合、「段落数」と「行数」は同じ値に
なっているかもしれませんが…。

■ [No.393] Re: 段落数の不一致（増加）について 投稿者：村田投稿日:2009/01/08(Thu) 01:51:51

樋口先生

早速のアドバイスをありがとうございます。
教えていただきましたように、雑誌記事から全部改行を取り除き、1記事につき、改行のない1段落になるようなデータを作成しております。

Excelでは字数が確認できないので（できるのかもしれませんが、やり方がわかりませんでした）、Wordに置き換えて字数チェック等の作業をしております。
行数ではなく、段落数とデータ数が一致するようです。（1データ約100行のデータになります。）

教えていただいた1つ目の方法で確かめてみると、やはりほとんどの段落が分割されていました。
いろいろ調べてみて、1つだけこれかな？と思うのが、文字数4095（スペースを含める）のところで、段落が2つに分割されているように思います。

マニュアルにも、そのような中途半端な数字（4095字）についての言及がなく、確かめ方もわかりませんでしたので、原因がわからず迷走しておりました。教えていただいたアドバイスで原因がわかりました。
チュートリアルでは、8000字ほどのデータは分析できるとの記載がありましたが、この問題を何とか突破する方法はありませんでしょうか？

■ [No.394] Re: 段落数の不一致（増加）について 投稿者：村田投稿日:2009/01/08(Thu) 01:56:00

また追加で申し訳ありません。

「ツール」－「抽出語」－「共起ネットワークグラフ」もエラーが出ます。
導入ミスかと、KH Coderを再インストールしてみましたが、同じエラーが出ました。
ほかの方のケース等では、4095で段落が分割されてしまう問題も含めて、こうした不都合は起きていませんでしょうか？
私のマシンとの相性が悪いのでしょうか？？（OSは、XPにインストールしております。）

■ [No.395] 確認できました 投稿者：HIGUCHI Koichi 投稿日:2009/01/08(Thu) 16:06:56

樋口です。

問題が発生する条件を特定していただき、まことにありがとうございま
す。1つの段落が全角4095文字よりも長い場合、自動的に段落が分割され
てしまう問題をこちらでも確認いたしました。

残念ながら、この問題には茶筌の仕様が関係しており、KH Coder側で対
応するには大手術が必要です。目下の所、この大手術の目処が立ってお
りませので、次のリリースではマニュアルの記述を8,000字から4,000字
に変更し、ファイルのチェック機能でも4,000字以上の段落をチェックす
るように修正する予定です。

こうしたことから、当該のデータを分析していただくには、それぞれの
記事に
<h5><記事の区切り／見出し></h5>
というような見出しを付けていただく必要があります。そして、段落単
位ではなく、h5単位でデータを分析していただくという形です。この場
合ですと、さらに、「語の取捨選択」コマンドで「使用しない語」とし
て、「記事の区切り／見出し」を追加すると良いでしょう。

蛇足かとは思いますが、秀丸のような正規表現を利用できるエディタで
したら、「正規表現」にチェックを入れた上で、
> 検索: ^
> 置換: <h5><記事の区切り／見出し></h5>\n
と指定して全置換をしていただくことで、見出しの挿入を自動的に行え
ます。

また、「正規表現」にチェックを入れて、
> 検索: 。
> 置換: 。\n
と指定して全置換をしていただくことで、一文ごとに改行を挿入し、長
い段落を無くすことができます（こうしていただく方が安全です）。

マニュアルにおける、1段落は8,000字以下でなければならないとの記述
は誤りでした。4,000字以下に訂正させていただきます。また、この誤り
によってご迷惑をおかけしましたことを深くお詫び申し上げます。

p.s.
Wordの「段落数」「行数」については私の勘違いでした。ご放念下さい。

おそらくは、雑誌記事のようにある程度長さのあるものになりますと、H
1～H5タグを使ってデータを分割する場合が多かったために、この問題の
発見が遅れたものと思われます。

なお共起ネットワークにつきましては、同じ設定で階層的クラスター分析
の結果が出るかどうかや、エラーメッセージなどを教えていただければ、
もしかすると何か分かるかもしれません。