[掲示板へもどる]
一括表示

  [No.1873] 特徴語のリストについて 投稿者:furu.y  投稿日:2014/11/20(Thu) 07:41:57

樋口先生

はじめまして。

特徴語の抽出について、質問させてください。
現在、200余りの論文ごとの特徴語の抽出をしたいと思っています。
そこで、一覧で特徴語を抽出することのできる、
外部変数と見出し>リスト>一覧
という順序で操作しているのですが、出力される単語は、それぞれ10ずつになってしまうのは、変更できないのでしょうか?(自力でコードを調整するしかありませんでしょうか?)

また、フィルタリングで調整した後に一覧のデータを、csvなどで得たいと思うのですが、それについては1つずつコピーしていくしか、現状は方法がありませんでしょうか?

ご回答よろしくお願いいたします。


  [No.1874] Re: 特徴語のリストについて 投稿者:HIGUCHI Koichi  投稿日:2014/11/20(Thu) 16:57:55

こんにちは、樋口です。書き込みありがとうございます。

> 出力される単語は、それぞれ10ずつになってしまうのは、変更できないので
> しょうか?(自力でコードを調整するしかありませんでしょうか?)

はい、現状は10で固定です。

この機能では「関連語検索」画面が自動的に操作されて、この画面で特徴語を
探しています。ですので、ご自身で「関連語検索」画面を操作していただいて、
上位10語ではなく、たとえば20語をコピー&ペーストしていただくのが一手で
しょう。

もちろん、コードを編集していただくことでも実現可能です。

> また、フィルタリングで調整した後に一覧のデータを、csvなどで得たい

「関連語検索」画面で「フィルター」ボタンをクリックして、調整されたとい
うことでしょうか? この場合、「関連語検索」画面を閉じずに、外部変数リ
ストの画面から「一覧」を実行すれば、調整の結果が反映されます。


余談というかお節介というかになりますが、200論文のすべてについて、特徴
語を出されているということでしょうか。ちょっと目で解釈するのが難しく
はないでしょうか。

200論文を10程度のクラスターに分けて、それぞれのクラスターの特徴語を見
る方が、結果を読み取りやすいかもしれませんね。
http://khc.sourceforge.net/scr_r.html#doc-cls


  [No.1875] Re: 特徴語のリストについて 投稿者:furu.y  投稿日:2014/11/21(Fri) 02:10:37

樋口先生

早速の返信、ありがとうございました。

なるほど、操作に関しては理解ができました。果たして本当に10位上の単語が必要かどうか考えて、もう一度作業に臨みたいと思います。

現状では、比較検討するためといいますか、単語そのものを集めることが目的になっていますので、10年ほどのデータをそれぞれ年度ごとにわけて分析にかけています。アドバイスしていただき、ありがとうございます。

そこで、もう一つ質問があります。
以下、同一ファイル内での特徴語を選択した場合の結果なのですが、
コミュニケーションという言葉が抽出できているにも関わらず、後者においてそれが分割されてしまうのは、特徴的な語を出すという目的のために、重複しないようになっているから、ということなのでしょうか?
度々の質問、申し訳ありません。

1.txt

.090
オブジェクト
.080
インタフェース
.040
コミュニケーション
.039
装置
.034

.031
イチ
.030
リュウ
.030
盆栽
.030
キュー
.030


2.txt
コミュニケ
.125

.124
生物
.096
情報
.090

.069

.061
行動
.059
ション
.058
発生
.057
人間
.053コミュニケ
.125

.124
生物
.096
情報
.090

.069

.061
行動
.059
ション
.058
発生
.057
人間
.053


  [No.1876] Re: 特徴語のリストについて 投稿者:HIGUCHI Koichi  投稿日:2014/11/21(Fri) 22:45:47

こんにちは、樋口です。書き込みありがとうございます。

「コミュニケ」と「ション」については、おそらくは入力データの問題かと
思われます。間に入っているのが通常の長音記号「ー」ではなく、ハイフン
かダッシュか何かになっていないでしょうか。


  [No.1877] Re: 特徴語のリストについて 投稿者:furu.y  投稿日:2014/11/22(Sat) 06:15:55

樋口先生

ありがとうございます!まさかそんなことが原因だとは思っていませんでした。ありがとうございます。解決しました。
また何かありましたらよろしくお願い致します。