こんにちは、樋口です。書き込みありがとうございます。
そうですね、自動的・機械的にに取り出した「語」と、人間が意図的に取り出
した「コード」は別々に扱うようにしています。
というのも似通った語をコードにまとめるという作業は、その作業をする人の
考え方や先入観の影響を受けます。ですから語とコードを不注意に混ぜてしま
うと、統計分析によってデータの特徴が明らかになったのか、分析者の先入観
が明らかになったのか、分からなくなってしまうことがありえます。ですから
語とコードは分けるようにしています。似た言葉をまとめた「コード」は、「
語」と一緒に分析できないようにしています。
ではどうすればよいのかということですが、お勧めの方策としては、以下のよ
うなものが考えられます。
■1 なるべく似通った単語をまとめずに分析する
もし「ドクター」と「医師」の出現パターンが似通っているならば、抽出語の
共起ネットワークや対応分析では、「ドクター」と「医師」が近くに配置され
るでしょう。その場合には、「やはり意味の似た語は使われ方も似ていたんだ
な」「近くにある他の語を見ると、こういう文脈で使われていたんだな」と解
釈できるでしょう。
あるいは、もし「ドクター」と「医師」の出現パターンが多少違っていれば、
抽出語の共起ネットワークや対応分析では、これらの語は違う位置にあらわれ
るでしょう。その場合は、どう使われ方が違っていたのか解釈できるでしょう。
他の語との関連を見るときには、以上のように、似通った語をまとめずに分析
すれば良いのです。
その上で、「ドクター」と「医師」をまとめたコードがどの部分に多く出現し
ているかといったことは、「ツール」→「コード」→「クロス集計」などのコ
マンドで調べるとよいでしょう。
■2 分析したい語をすべてコード化する
例えば以下のような形で、長いコーディングルールを作って、「ツール」→「
コード」メニュー内のコマンドを使って分析します。
----------------------------------------------------------------------
*医師
ドクター or 医師
*単語A
単語A
*単語B
単語B
*単語C
単語C
----------------------------------------------------------------------
こうすれば「*医師」と、単語A〜Cとの関連を見ることができるでしょう。A
〜Cまでだけでなく、100程度の語を並べればよいわけです。
■3 どうしても「語」として扱いたい場合には
「ドクター」と「医師」をまとめたものを、どうしても1つの語として扱いた
い場合には、裏技のようなものがないでもありません。この投稿の一番上で書
いた考え方に反しますし、手順も面倒なので、あまりお勧めではないのですが。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1010&mode=allread