文書の改行の扱いについて [スレッド] KH Coder 旧掲示板

再び失礼します。

テキストマイニングに使うテキストについてなのですが、膨大な文章のため
コピー&ペーストで元のテキストを用意しました。

そこで、KWICコンコーダンスを使うとき、文書が改行部分で区切られて
認識していることに気づきました。（文書表示で文章がぶつ切りだったため・・・）

最初は句読点で文書が区切られていると思っていたので
変な所で文章が区切られていることで抽出語や共起ネットワークの結果
に影響が出ていないか不安になりました。

これはこのままでも大丈夫なのでしょうか？
改善方法があれば教えてください。

■ [No.2067] Re: 文書の改行の扱いについて 投稿者：HIGUCHI Koichi 投稿日:2015/05/23(Sat) 22:16:30

こんにちは、樋口です。書き込みありがとうございます。

改行があると、そこでKH Coderは段落を区切ります。段落が区切られると、文
も強制的に区切られます。

しがって、分析結果に影響があるでしょうし、そのままでは大丈夫ではないと
思います。

改善方法としては、データ中の「変な所」の改行を削除するしかないように思
います。いったんすべての改行を削除してから、「。」の後ろに改行を入れる
という手順なら、テキストエディタの「検索と置換」の機能で自動的に行える
でしょう。

■ [No.2072] Re: 文書の改行の扱いについて 投稿者：キリン 投稿日:2015/05/26(Tue) 14:57:12

樋口先生、お返事ありがとうございます！

テキストエディタのソフトが手元になかったので、
Wordでなんか修正を行いました。

危うく間違えた分析をするところでした。
ありがとうございました！