コーディングルールfileのKHCoderへのアップの方法について [スレッド] KH Coder 旧掲示板

連休中、恐れ入ります。

死＝逝去、夭逝、昇天、死去、、などのように
同義語を１つの言葉として扱わせるにあたり、
「コーディングルール」のtxtのfileまでは作れたのですが、
それをKHCoderにどうアップするかがわかりません。
（チュートリアルもリファレンスも拝読したのですが、、）

もしかすると、そもそもの分析対象のデータファイルの中に書き込むのでしょうか？

■ [No.2204] 同義語反映したら、逆に抽出数が減ってしまった際の対応について 投稿者：shiba 投稿日:2015/09/22(Tue) 15:08:33

すみません、いじっていたら、コーディングルールの反映方法が判明しました。

しかし、今度はもう１つ別の悩みが発生しました。

コーディングルールを活用しなかったとき、53あった語（例えば「死」）が、
コーディングルールで複数の同義語を指定したら（例えば、死、逝去、夭逝、、）数が51と逆に減ってしまいました。

おそらく前者では出現「単語数」を選択していたのに対し、
後者は、含む「文の数」を選択したためだと想像します。

だとしたら（しないとしても）、
１）両方「出現単語数」で抽出する方法はあるでしょうか？
２）そもそも、同義語として解釈された状態で全語を頻度順に抽出することはできるでしょうか？

ご教示くださいませ。

■ [No.2208] Re: 同義語反映したら、逆に抽出数が減ってしまった際の対応について 投稿者：HIGUCHI Koichi 投稿日:2015/09/22(Tue) 19:03:32

こんにちは、樋口です。書き込みありがとうございます。

> おそらく前者では出現「単語数」を選択していたのに対し、
> 後者は、含む「文の数」を選択したためだと想像します。

コーディング単位として「文」が選択されていれば、お書きの通りです。もし
仮にコーディング単位が「段落」であれば、段落の数ということになります。

> １）両方「出現単語数」で抽出する方法はあるでしょうか？

基本的には、ありません。

これは、自動的に取り出す「語」と、人間が意図的に取り出す「コード」を混
同しないようにという考えで開発を行なっているためです。

> ２）そもそも、同義語として解釈された状態で全語を頻度順に抽出すること
> はできるでしょうか？

同じ理由で、これも基本的にはできません。

ただ、「どうしても」という場合のために、方法がないわけではありません。
少し複雑な手順になりますし、あまりお勧めしていませんが、こうした方法も
あるにはあります。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1010&mode=allread#1010

■ [No.2210] ありがとうございました！ 投稿者：shiba 投稿日:2015/09/22(Tue) 21:55:41

樋口先生

ありがとうございます。

・できないということ
・そしてその合理的な理由

がよくわかりました。

こうして具体例を通じ、設計思想に触れられることはとてもありがたいです。
とはいえ、もっと使いこなせるようにならねば、、です。

もう1問、追加のご相談を挙げさせていただいております。
お手数をおかけいたします。