Re: 解析前の語の漢字およびかな表記の統一 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.2194] Re: 解析前の語の漢字およびかな表記の統一 投稿者:HIGUCHI Koichi  投稿日:2015/09/19(Sat) 15:07:12

こんにちは、樋口です。書き込みありがとうございます。

樋口の場合、多変量解析で大まかにデータの様子を見るという、分析の1つ目
の段階では、そうした統一はなるべく行なわないようにしています。

たとえばこちらの自己組織化マップでは、ひらがなの「いろいろ」も漢字の
「色々」も比較的近い場所に配置されています。右下「II-c」の部分です。
ここから、これら2語は、データ中での使われ方が似通っていたことを読み取
れます。
http://khc.sourceforge.net/scr_words_som.html

こういう場合もあるでしょうが、もし、ひらがなの「いろいろ」と漢字の
「色々」とで、使われ方が異なっていた場合には、より遠くに配置されて
いたでしょう。

分析の1つ目の段階では、こうしたことも含めて探索を行なうようにしてい
ます。


その上で2つ目の段階でコーディングを行なう際に、必要に応じて、「色々」
と「いろいろ」をまとめて1つのコードとして数えるといった指定を行なっ
ています。1つ目の段階の分析結果を見て参考にしながら、こうしたコード
を作ることには、そこまで労力はかからないかなと…。


以上、あくまで樋口の場合ということですが、ご参考にしていただける部分
がございましたら幸いです。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)