[掲示板へもどる]
一括表示

  [No.2485] ツール>関連語検索:集計単位 文 投稿者:いで  投稿日:2016/05/25(Wed) 09:40:23

《関連語検索》の(集計単位)で「文」もしくは「段落」の選択ができますが、段落は改行を持って段落と見なす旨「社会調査のための軽量テキスト分析」の本の中に書いてありますが、文は何を持って文とされているのでしょうか。


  [No.2486] 文の認識 投稿者:HIGUCHI Koichi  投稿日:2016/05/25(Wed) 12:17:47

こんにちは、樋口です。書き込みありがとうございます。

日本語・中国語データの場合は段落の中に「。」があれば、韓国語データの場
合には「.」があれば、そこで「文」を区切っています。

それ以外の言語に関しては、Lingua::Sentenceというプログラム(Perlモジュ
ール)を使って、段落を文に分割しています。
http://search.cpan.org/~achimru/Lingua-Sentence-1.05/lib/Lingua/Sentence.pm

なお、改行があると(段落が変わると)、そこで強制的に文も区切られます。


データの準備時には、KH Coderの本『社会調査のための計量テキスト分析』
A.2.1節もざっとご覧いただくと良いかもしれません。
http://amzn.to/1kJGVh5