[掲示板へもどる]
一括表示

  [No.2810] 似通った言葉のコーティング 投稿者:佐藤  投稿日:2016/12/20(Tue) 15:38:19

初めまして。
最近使い始めた初心者です。
調べてわからなかった為質問させていただきます。


対象ファイル内に異なる言葉で同じ意味もものがいくつかあります。
たとえば
問題ない・なかった・なさそう
見からない・なかった など
ありません…やその他にも言葉があり、同じ意味として集計したいです。

コーティングでやるにしても量が多く色々な言葉で表されてるので
元のファイルから探し出すのにも大変です。

複合語では出てこないですし抽出後検索なんかでも
問題や不具合等に関してはその後の品詞が出てこないので
ここでまとめコーディングすることもできないです。
なにかいい方法は、ありませんでしょうか?

説明下手ですみませんがご教授願いします。
お忙しいところ申し訳ありませんがよろしくお願いします。


  [No.2812] Re: 似通った言葉のコーティング 投稿者:HIGUCHI Koichi  投稿日:2016/12/20(Tue) 19:12:13

こんにちは、樋口です。書き込みありがとうございます。

えっと、残念ながら、魔法のような方法は存在しません。

1つの方法は、コーディングに入る前に共起ネットワークやクラスター分析、
関連語検索などを使って、あたりをつけることかなと思います。たとえば「問
題」という言葉と、「ない」「見つかる」「見当たる」などの言葉が共起して
いることが分かれば、それをコーディングに活かせるでしょう。

また、本当にコーディングが必要かどうかも、少し考えてみるとよいと思いま
す。たとえば、外部変数としてプロジェクトの成否のような情報があるなら、
「成功プロジェクトの報告にはどんな言葉が多いか」といった分析は、コーデ
ィングなしで行えます。これがうまくいけば、コーディングは必ずしも必要な
いかもしれません。あるいは、「結果の中で、この言葉・コンセプトだけはコ
ーディングをして正確に数えておきたい」というふうに焦点が絞れるかもしれ
ません。

あとはもう地道にコーディングルールを書くということでしょうか。基本形を
指定すれば、すべての活用形がヒットしますので、それほど長いルールを書か
なくても大丈夫だと思います。挙げていただいた例ですと「問題 and ない」
というルールだけでも、かなりのものがヒットするかと思います。


  [No.2813] Re: 似通った言葉のコーティング 投稿者:佐藤  投稿日:2016/12/21(Wed) 13:12:22

お返事ありがとうございます。

関連語検索は元ファイルが悪いのかどう共起してるか理解するのができませんでした。
(初心者すぎてすみません。)
外部変数かコーディングルールのandでやってみようと思います。

ありがとうございました。


  [No.2814] Re: 似通った言葉のコーティング 投稿者:HIGUCHI Koichi  投稿日:2016/12/21(Wed) 13:35:37

こんにちは、樋口です。書き込みありがとうございます。

関連語検索のデフォルトの集計単位は「段落」です。このままだと、同じ段落
内に共起している語を検索します。なので、これを「文」に変えた方が、今回
の目的であれば適しているかもしれません。

あるいは、KWICコンコーダンス画面で「集計」をクリックして、コロケーショ
ン統計(前後5語内の共起)を見るのも良さそうです。
http://www.slideshare.net/khcoder/kh-coder-28776074/15


  [No.2816] Re: 似通った言葉のコーティング 投稿者:佐藤  投稿日:2016/12/22(Thu) 16:25:09

お返事ありがとうございます。

教えていただいたやり方でだいぶ言葉のコーディングが出来ました
ありがとうございます。

例えば 一部の言葉に対し、コーディングし
(今回の例では
*問題なし
問題andない

*問題あり
問題andあり)

あとはそのままのコーディングを行わないで 共起ネットワークのグラフにしたいのですが

コーディングルールは一部だけというのは出来なさそうなので
この場合外部変数を使用するといいのでしょうか?

コーディングルールも外部変数も 作成したものしか共起ネットワークの対象にならないのでしょうか??


初歩的な事で大変申し訳無いのですがご教授願い致します。


  [No.2908] Re: 似通った言葉のコーティング 投稿者:HIGUCHI Koichi  投稿日:2017/02/09(Thu) 00:51:45

こんにちは、樋口です。書き込みありがとうございます。遅くなってしまって
すみません。

今更ですが、以下のようにコーディングルールに言葉を足していくのが良いか
と思います。

#-------------------
*語A
語A

*語B
語B

*語C
語C
#-------------------

ご面倒をおかけしますが、自動抽出される語と、分析者が意図的に取り出すコ
ードとは、区別して扱うという方針にしております。