[掲示板へもどる]
一括表示

  [No.2064] 文書の改行の扱いについて 投稿者:キリン  投稿日:2015/05/19(Tue) 17:08:32

再び失礼します。

テキストマイニングに使うテキストについてなのですが、膨大な文章のため
コピー&ペーストで元のテキストを用意しました。

そこで、KWICコンコーダンスを使うとき、文書が改行部分で区切られて
認識していることに気づきました。(文書表示で文章がぶつ切りだったため・・・)

最初は句読点で文書が区切られていると思っていたので
変な所で文章が区切られていることで抽出語や共起ネットワークの結果
に影響が出ていないか不安になりました。

これはこのままでも大丈夫なのでしょうか?
改善方法があれば教えてください。


  [No.2067] Re: 文書の改行の扱いについて 投稿者:HIGUCHI Koichi  投稿日:2015/05/23(Sat) 22:16:30

こんにちは、樋口です。書き込みありがとうございます。

改行があると、そこでKH Coderは段落を区切ります。段落が区切られると、文
も強制的に区切られます。

しがって、分析結果に影響があるでしょうし、そのままでは大丈夫ではないと
思います。

改善方法としては、データ中の「変な所」の改行を削除するしかないように思
います。いったんすべての改行を削除してから、「。」の後ろに改行を入れる
という手順なら、テキストエディタの「検索と置換」の機能で自動的に行える
でしょう。


  [No.2072] Re: 文書の改行の扱いについて 投稿者:キリン  投稿日:2015/05/26(Tue) 14:57:12

樋口先生、お返事ありがとうございます!

テキストエディタのソフトが手元になかったので、
Wordでなんか修正を行いました。

危うく間違えた分析をするところでした。
ありがとうございました!