[掲示板へもどる]
一括表示

  [No.2193] 解析前の語の漢字およびかな表記の統一 投稿者:   投稿日:2015/09/19(Sat) 10:49:36

御著書拝読しました。大変勉強になりました。
さて、KH coderに供する前の段階で、一般的にひらがな表記と
現在、漢字表記の両方が使われるような語(ありがたい⇔有難い、
いろんな⇔色んな、おいしい⇔美味しい、すごい⇔凄い、のぞく
⇔除くor覗く etc.)については、後者に統一する作業をしてい
ます。これをしないと同じ語でも別々の品詞カテゴリーに分類
されてしまうと思うのですが、そのような語は結構有り、なか
なか面倒な作業です。何か良い手はないでしょうか。


  [No.2194] Re: 解析前の語の漢字およびかな表記の統一 投稿者:HIGUCHI Koichi  投稿日:2015/09/19(Sat) 15:07:12

こんにちは、樋口です。書き込みありがとうございます。

樋口の場合、多変量解析で大まかにデータの様子を見るという、分析の1つ目
の段階では、そうした統一はなるべく行なわないようにしています。

たとえばこちらの自己組織化マップでは、ひらがなの「いろいろ」も漢字の
「色々」も比較的近い場所に配置されています。右下「II-c」の部分です。
ここから、これら2語は、データ中での使われ方が似通っていたことを読み取
れます。
http://khc.sourceforge.net/scr_words_som.html

こういう場合もあるでしょうが、もし、ひらがなの「いろいろ」と漢字の
「色々」とで、使われ方が異なっていた場合には、より遠くに配置されて
いたでしょう。

分析の1つ目の段階では、こうしたことも含めて探索を行なうようにしてい
ます。


その上で2つ目の段階でコーディングを行なう際に、必要に応じて、「色々」
と「いろいろ」をまとめて1つのコードとして数えるといった指定を行なっ
ています。1つ目の段階の分析結果を見て参考にしながら、こうしたコード
を作ることには、そこまで労力はかからないかなと…。


以上、あくまで樋口の場合ということですが、ご参考にしていただける部分
がございましたら幸いです。


  [No.2195] Re: 解析前の語の漢字およびかな表記の統一 投稿者:   投稿日:2015/09/19(Sat) 16:03:00

早々のご返答ありがとうございました。検討させていただきます。