Re: 解析前の語の漢字およびかな表記の統一 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

樋口の場合、多変量解析で大まかにデータの様子を見るという、分析の1つ目
の段階では、そうした統一はなるべく行なわないようにしています。

たとえばこちらの自己組織化マップでは、ひらがなの「いろいろ」も漢字の
「色々」も比較的近い場所に配置されています。右下「II-c」の部分です。
ここから、これら2語は、データ中での使われ方が似通っていたことを読み取
れます。
http://khc.sourceforge.net/scr_words_som.html

こういう場合もあるでしょうが、もし、ひらがなの「いろいろ」と漢字の
「色々」とで、使われ方が異なっていた場合には、より遠くに配置されて
いたでしょう。

分析の1つ目の段階では、こうしたことも含めて探索を行なうようにしてい
ます。

その上で2つ目の段階でコーディングを行なう際に、必要に応じて、「色々」
と「いろいろ」をまとめて1つのコードとして数えるといった指定を行なっ
ています。1つ目の段階の分析結果を見て参考にしながら、こうしたコード
を作ることには、そこまで労力はかからないかなと…。

以上、あくまで樋口の場合ということですが、ご参考にしていただける部分
がございましたら幸いです。