Re: 似通った単語をまとめる方法について (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

そうですね、自動的・機械的にに取り出した「語」と、人間が意図的に取り出
した「コード」は別々に扱うようにしています。

というのも似通った語をコードにまとめるという作業は、その作業をする人の
考え方や先入観の影響を受けます。ですから語とコードを不注意に混ぜてしま
うと、統計分析によってデータの特徴が明らかになったのか、分析者の先入観
が明らかになったのか、分からなくなってしまうことがありえます。ですから
語とコードは分けるようにしています。似た言葉をまとめた「コード」は、「
語」と一緒に分析できないようにしています。

ではどうすればよいのかということですが、お勧めの方策としては、以下のよ
うなものが考えられます。

■1 なるべく似通った単語をまとめずに分析する

もし「ドクター」と「医師」の出現パターンが似通っているならば、抽出語の
共起ネットワークや対応分析では、「ドクター」と「医師」が近くに配置され
るでしょう。その場合には、「やはり意味の似た語は使われ方も似ていたんだ
な」「近くにある他の語を見ると、こういう文脈で使われていたんだな」と解
釈できるでしょう。

あるいは、もし「ドクター」と「医師」の出現パターンが多少違っていれば、
抽出語の共起ネットワークや対応分析では、これらの語は違う位置にあらわれ
るでしょう。その場合は、どう使われ方が違っていたのか解釈できるでしょう。

他の語との関連を見るときには、以上のように、似通った語をまとめずに分析
すれば良いのです。

その上で、「ドクター」と「医師」をまとめたコードがどの部分に多く出現し
ているかといったことは、「ツール」→「コード」→「クロス集計」などのコ
マンドで調べるとよいでしょう。

■2 分析したい語をすべてコード化する

例えば以下のような形で、長いコーディングルールを作って、「ツール」→「
コード」メニュー内のコマンドを使って分析します。

----------------------------------------------------------------------
＊医師
ドクター or 医師

＊単語A
単語A

＊単語B
単語B

＊単語C
単語C
----------------------------------------------------------------------

こうすれば「＊医師」と、単語A～Cとの関連を見ることができるでしょう。A
～Cまでだけでなく、100程度の語を並べればよいわけです。

■3 どうしても「語」として扱いたい場合には

「ドクター」と「医師」をまとめたものを、どうしても1つの語として扱いた
い場合には、裏技のようなものがないでもありません。この投稿の一番上で書
いた考え方に反しますし、手順も面倒なので、あまりお勧めではないのですが。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1010&mode=allread