御著書拝読しました。大変勉強になりました。さて、KH coderに供する前の段階で、一般的にひらがな表記と現在、漢字表記の両方が使われるような語(ありがたい⇔有難い、いろんな⇔色んな、おいしい⇔美味しい、すごい⇔凄い、のぞく⇔除くor覗く etc.)については、後者に統一する作業をしています。これをしないと同じ語でも別々の品詞カテゴリーに分類されてしまうと思うのですが、そのような語は結構有り、なかなか面倒な作業です。何か良い手はないでしょうか。
こんにちは、樋口です。書き込みありがとうございます。樋口の場合、多変量解析で大まかにデータの様子を見るという、分析の1つ目の段階では、そうした統一はなるべく行なわないようにしています。たとえばこちらの自己組織化マップでは、ひらがなの「いろいろ」も漢字の「色々」も比較的近い場所に配置されています。右下「II-c」の部分です。ここから、これら2語は、データ中での使われ方が似通っていたことを読み取れます。http://khc.sourceforge.net/scr_words_som.htmlこういう場合もあるでしょうが、もし、ひらがなの「いろいろ」と漢字の「色々」とで、使われ方が異なっていた場合には、より遠くに配置されていたでしょう。分析の1つ目の段階では、こうしたことも含めて探索を行なうようにしています。その上で2つ目の段階でコーディングを行なう際に、必要に応じて、「色々」と「いろいろ」をまとめて1つのコードとして数えるといった指定を行なっています。1つ目の段階の分析結果を見て参考にしながら、こうしたコードを作ることには、そこまで労力はかからないかなと…。以上、あくまで樋口の場合ということですが、ご参考にしていただける部分がございましたら幸いです。
早々のご返答ありがとうございました。検討させていただきます。