Re: 同義語反映したら、逆に抽出数が減ってしまった際の対応について (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

> おそらく前者では出現「単語数」を選択していたのに対し、
> 後者は、含む「文の数」を選択したためだと想像します。

コーディング単位として「文」が選択されていれば、お書きの通りです。もし
仮にコーディング単位が「段落」であれば、段落の数ということになります。

> １）両方「出現単語数」で抽出する方法はあるでしょうか？

基本的には、ありません。

これは、自動的に取り出す「語」と、人間が意図的に取り出す「コード」を混
同しないようにという考えで開発を行なっているためです。

> ２）そもそも、同義語として解釈された状態で全語を頻度順に抽出すること
> はできるでしょうか？

同じ理由で、これも基本的にはできません。

ただ、「どうしても」という場合のために、方法がないわけではありません。
少し複雑な手順になりますし、あまりお勧めしていませんが、こうした方法も
あるにはあります。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1010&mode=allread#1010