デフォルトでは,Jaccard係数を算出する際の集計範囲が前後5になっているとマニュアルに書いてありますが,これを変更することはできますか?また,何らかの客観的基準に基づいてデフォルトが5になっているのでしょうか?
こんにちは、樋口です。書き込みありがとうございます。マニュアルのどの部分に、なんと書いてありましたでしょうか?共起ネットワークでは文・段落・文書など、ユーザー指定の単位で計算できます。デフォルトは「段落」です。デフォルトで前後5語というのはコロケーション統計の方で、コロケーション統計の画面では原則的に、当該分野(英語コーパス研究)で広く利用されてきたWordSmith Toolsに倣った(近似的な)計算法をとっています。
よく見たらそうですね。申し訳ございません。段落になっているというデフォルトの設定の見直し方も含めてもう少し触ってみます。> こんにちは、樋口です。書き込みありがとうございます。> > マニュアルのどの部分に、なんと書いてありましたでしょうか?> > 共起ネットワークでは文・段落・文書など、ユーザー指定の単位で計算できま> す。デフォルトは「段落」です。> > デフォルトで前後5語というのはコロケーション統計の方で、コロケーション> 統計の画面では原則的に、この分野で広く利用されてきたWordSmith Toolsに> 倣った(近似的な)計算法をとっています。
いえいえ、不味い記述があるようなら直しておかないと思ったのです。オプション画面の一番右上に「集計単位:段落」という部分があるので、ここで切り替えられます。「段落」「文」以外の単位を指定するためには、H1〜H5タグを使った見出しを入れる必要があります。あと、テキストファイルの場合は「段落」がデフォルトですが、Excel・CSVファイルを分析対象ファイルとして指定した場合に関しては、1つ1つのセル(H5)がデフォルトになっています。