Re: 文の認識 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.2486] 文の認識 投稿者:HIGUCHI Koichi  投稿日:2016/05/25(Wed) 12:17:47

こんにちは、樋口です。書き込みありがとうございます。

日本語・中国語データの場合は段落の中に「。」があれば、韓国語データの場
合には「.」があれば、そこで「文」を区切っています。

それ以外の言語に関しては、Lingua::Sentenceというプログラム(Perlモジュ
ール)を使って、段落を文に分割しています。
http://search.cpan.org/~achimru/Lingua-Sentence-1.05/lib/Lingua/Sentence.pm

なお、改行があると(段落が変わると)、そこで強制的に文も区切られます。


データの準備時には、KH Coderの本『社会調査のための計量テキスト分析』
A.2.1節もざっとご覧いただくと良いかもしれません。
http://amzn.to/1kJGVh5


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)