[掲示板へもどる]
一括表示

  [No.1528] 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:関口  投稿日:2013/12/11(Wed) 15:06:49
「文書のクラスター分析」における「プロット」ボタンについて (画像サイズ: 499×283 56kB)

樋口先生

お世話になっております、関口と申します。初めて書き込みさせて頂きます。
素晴らしいツールの開発・ご提供ありがとうございます。

一つお伺いしたいのですが、標題の「文書のクラスター分析」機能において、
Ver 2.beta.30dまでは「各クラスターに含まれる文書」の下部に「プロット」
ボタンがあったのですが、「Ver 2.beta.30f」では当該ボタンが無くなって
しまったように見受けられます。

このボタン(機能)を復活させることは、難しいでしょうか?
(重宝していた機能ですので……)

お手数なことで恐縮ですが、ご検討頂ければ幸いです。


  [No.1529] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:HIGUCHI Koichi  投稿日:2013/12/13(Fri) 21:56:22

こんにちは、樋口です。書き込みありがとうございます。

えっと、その「プロット」ボタンを取り除いたつもりはなかったのですが、な
くなっていますでしょうか。

文書のクラスター分析のオプションで「方法」として「CLARA」以外のものを
選択なさっていることをご確認ください。「CLARA」の場合のみ、方法の特性
に関する理由でデンドログラムを作成できないため、このボタンを非表示にし
ています。例えば「Ward法」をお使いいただきますと、ボタンがでてこないで
しょうか。


  [No.1530] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:関口  投稿日:2013/12/17(Tue) 21:58:32

樋口先生

こんにちは、関口です。返信が遅れてしまい、大変申し訳ありません。
その後、さらに検証を進めたところ、「Ver 2.beta.30d、Ver 2.beta.30f
のいずれでも『プロット』ボタンが表示されるデータ」と、「Ver 2.beta.30f
では『プロット』ボタンが表示されないが、Ver 2.beta.30dでは『プロット』
ボタンが表示されるデータ」があることが判明しました。

(1) Ver 2.beta.30d、Ver 2.beta.30fのいずれでも『プロット』ボタンが
表示されるデータ
比較的小規模なデータ。「文:572」「段落:252」「h2:84」
「使用される語の数:159」(名詞のみ。最小出現数:5、最小文書数:1)

(2) Ver 2.beta.30fでは『プロット』ボタンが表示されないが、Ver 2.beta.30d
では『プロット』ボタンが表示されるデータ
中規模のデータ。「文:3162」「段落:1489」「h2:497」
「使用される語の数:284」(名詞のみ。最小出現数:15、最小文書数:1)

(1)及び(2)で共通の処理内容:
・集計単位:h2
・方法:Ward法
・距離:Jaccard
・クラスター数:10
・chasenでの前処理には、Ver 2.beta.30d、Ver 2.beta.30f共に
 共通の自作ユーザ辞書(MyDic.dic, テキストファイル:34KB)を使用。

状況としては以上のような感じです。
もし必要であれば、上述の(2)に該当するデータ(約511KB、公開特許
文書ですので、著作権上の問題は無いと思います)及び上述のMyDic.dicを
メールにて送付させて頂くことも可能です。

よろしくお願い致します。


> こんにちは、樋口です。書き込みありがとうございます。
>
> えっと、その「プロット」ボタンを取り除いたつもりはなかったのですが、な
> くなっていますでしょうか。
>
> 文書のクラスター分析のオプションで「方法」として「CLARA」以外のものを
> 選択なさっていることをご確認ください。「CLARA」の場合のみ、方法の特性
> に関する理由でデンドログラムを作成できないため、このボタンを非表示にし
> ています。例えば「Ward法」をお使いいただきますと、ボタンがでてこないで
> しょうか。


  [No.1531] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:HIGUCHI Koichi  投稿日:2013/12/17(Tue) 22:28:25

こんにちは、樋口です。書き込みありがとうございます。

すみません、うっかりしていました。お書きいただいた通り、2.beta.30e以降、
文書数が300を超える場合はデンドログラムを描画しないように設定していま
す。この場合には「プロット」ボタンも表示されません。

これは、巨大なデンドログラムを描画しようとして、画像サイズの制限にひっ
かかってエラーになるという問題を避けるための処置です。


ということで、現行の「300」という制限の値を500くらいに変えることで、ひ
とまず問題をバイパスできようかと思います。

ただ「300」という制限の値は、Perlスクリプト内に直接書き込んでいるので、
この値を変えるにはプログラムを編集していただく必要があります。プログラ
ムを編集していただくには、従来の「Windows版パッケージ」ではなく、Sourc
eForgeで配布しているPerl同梱版(*-strb.zip)をダウンロードしてお使いく
ださい。これは、編集できる状態のPerlスクリプトと、実行エンジン(Strawb
erry Perl)をセットで配布しているものです。このバージョンではPerlスク
リプトを容易に編集していただけます。手順は以下のようになります。

1. 下記ページで、一番新しいバージョン番号(現在は2.Beta.30)をクリック
し、さらに「khcoder-xxxx-strb.zip」をダウンロードします。※xxxxの部分
はバージョン番号です。解凍すれば「Windows版パッケージ」と同様にお使い
いただけます。
http://sourceforge.net/projects/khc/files/KH%20Coder/

2. kh_coder.exeがある場所から見て「kh_lib\gui_window\doc_cls.pm」とい
うファイルを、「秀丸」や「サクラエディタ」のようなテキストエディタで開
きます。

3. 「if ($ndocs <= 300){」という記述を検索し、300となっているところを5
00に変えて上書き保存します。

4. kh_coder.exeを実行して、デンドログラムの「プロット」ボタンが表示さ
れるかご確認ください。


ちなみに、300とか400になると、デンドログラムがかなり大きくなると思うの
ですが、それでもデンドログラムを見ることは、何かのお役にたちますでしょ
うか? もしよろしければコメントいただけますと幸いです。


  [No.1532] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:関口  投稿日:2013/12/17(Tue) 23:04:18

樋口先生

お世話になっております、関口です。
文書数が300を超える場合の対応方法についての早速の詳細な
ご教示、誠にありがとうございます。
なかなか複雑な手段のようですので、後日、しっかりと時間を
設けてトライしてみようと思います。

> ちなみに、300とか400になると、デンドログラムがかなり
> 大きくなると思うのですが、それでもデンドログラムを見る
> ことは、何かのお役にたちますでしょうか?
最近は大型ディスプレイの価格もかなり安くなり、ディスプレイ
アームなどを用いて縦型表示させることも容易になってきましたので、
500件くらいであれば、十分に表示・ハンドリングできるサイズであると
感じています。デンドログラム表示がありますと、各文書単位が、
どのようにクラスタリングされているのかが視覚的に分かりますので、
私見では、非常に有用だと考えております。

なお、このKH Coder掲示板でも取り上げられていた「Cytospace」
を使用する場合は、一度に数千のノードを有するデータを表示させる
こともありますので、300〜400程度はむしろ少ない方かもしれません。

余談ですが、本掲示板のNo. 577に書かれておられました、
「もう少し簡単にCytoscapeにデータを出力できるようにKH Coderに
手を加えるかもしれません」とのお言葉には大変期待しております。
KH Coder → Cytoscapeの連動には、非常に可能性を感じております。
No.692〜No.697の記載でやり方は分かったのですが、いささか
煩雑なもので……。


  [No.1533] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:HIGUCHI Koichi  投稿日:2013/12/23(Mon) 12:37:28

こんにちは、樋口です。書き込みありがとうございます。

返信が遅くなってしまって、失礼いたしました。

なるほど、500語程度の巨大なデンドログラムでも、お役に立ちますか。現在
は300を超えるとデンドログラムを作らない設定にしていますが、次期バージ
ョンでは、この300という閾値を500程度に変更する方向で考えさせていただき
ます。(50歩100歩やもしれませんが少しは…)

また、Cytoscapeとの連携強化に1票入れていただきましたこと、今後の方針を
決める上で参考にさせていただきます。ちなみに、Gephiはお試しになりまし
たでしょうか? 私が以前に試した時の印象では、CyptoscapeよりもGephiの
方が、いくぶんか操作しやすく、見栄えの良いグラフを作りやすかったような
印象があります。もしこの両者についての感想・コメント等おありでしたら、
よろしかったらお知らせ下さい。


  [No.1536] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:関口  投稿日:2013/12/26(Thu) 09:22:37

樋口先生

お世話になっております、関口です。
返信が遅くなってしまい、申し訳ありません。

ご教示頂きました手法にて、文書数が500近いデータについても問題なく
デンドログラムを表示させることができました。期待通り、当該デンドロ
グラムは有用なものでした。ありがとうございます。

「Gephi」については久しく触っておりませんでしたので、久しぶりに
操作してみましたが、私の個人的感触ではCytoscapeの方が使い勝手が
良さそうに感じました(もちろん、慣れの問題が大きいと思います)。

Cytoscapeに関しては下記のような文献が存在しており、操作方法が
勉強しやすかったことも好要因です。

(1) 今津,均, "Cytoscapeによる特許情報のネットワーク解析とビジュアル化",
情報管理, 2011, 54(8), 463-475
http://dx.doi.org/10.1241/johokanri.54.463

(2) 桐山, 勉, "特許情報検索と解析の将来展望 ‐マクロ分析とセミミクロ解析
とコア解析の連携分析(Cytoscape活用)‐", Japio year book, 2013, 2013, 164-169
http://www.japio.or.jp/00yearbook/files/2013book/13_2_01.pdf

Cytoscapeは各ノードの属性(attribute)テーブルが直感的にインポートでき、
インポートした属性データの一部を用いて、ノードを右クリックして外部DB
へのリンク先にジャンプさせられる点も高く評価しております。
(上記文献(1)の「6.外部DBへのリンク作成」をご参照下さい)


話は飛びますが、近年、KH Coderを知財情報解析に利用した事例も見受けられます。
例えば、以下の報告書のp84 - p91では、KH Coderを用いて多次元尺度構成法
及び共起ネットワークによる可視化を行っております。
http://www.inpit.go.jp/blob/katsuyo/pdf/shiryo/chizaijouhou2010.pdf

また、マイナーな業界誌ではありますが、以下の論文のp1587 - p1592に
おいてもKH Coderを用いた解析事例の詳細が記載されています。
・知的財産情報検索委員会第2小委員会, "キーワードの選定にテキストマイニング
を活用した特許検索手法の提案", 知財管理, 2012, 62(11), 1583-1597

『KH Coderを用いた研究事例』には記載されていなかったようですので
(私の探し方がまずいだけかもしれませんが……)、この機会にコメント
させて頂きます。

長文失礼致しました。
ご参考までに。


  [No.1537] Re: 「文書のクラスター分析」における「プロット」ボタンについて 投稿者:HIGUCHI Koichi  投稿日:2013/12/29(Sun) 18:33:11

こんにちは、樋口です。書き込みありがとうございます。
こちらこそ遅くなってしまいがちで恐縮です。

なるほど、Cytoscape陣営?も力が入っているご様子ですね。大変勉強させて
いただきました。

KH Coderの共起ネットワーク画面で「保存」ボタンをクリックすると、従来の
画像形式に加えて、Cytoscape形式で保存できるようにすると便利かもしれま
せんね。どうせなら、Cytoscape・Gephi・VOSViewer・Pajekの共通フォーマッ
トがあれば、これらに一挙に対応できて効率が良いので、おいおい調べてみよ
うと思います。全部は無理でも、いくつかに同時対応ができれば…。

もっとも、それなりに期間を要するかと思いますので、当面は下記スレッドの
方法でしのいでおいていただけましたら幸いです。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=577&mode=allread

また、KH Coderを使った研究事例についても情報をお寄せいただき、大変あり
がとうございます。こうした研究事例についての情報提供は本当に助かります。

ただ今回いただいた『知財管理』の論文は既に掲載していたかと思います。事
例リストのページでは「キーワード」欄に何か入力し、さらに「出版年」を「
すべて」にしていただかないと検索対象が広がらないので、少し検索しにくか
ったでしょうか。それと官公庁の報告書はこれまでは「関連リンク」ページに
載せるケースが多かったので、これを機会に取り扱いを検討させていただきま
す。

ともあれ、情報をお寄せいただいたこと、重ねてお礼申し上げます。