[掲示板へもどる]
一括表示

  [No.1025] 「コロケーション統計」の出力 投稿者:袋井  投稿日:2012/08/18(Sat) 21:50:40

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

「ツール」−「抽出語」−「KWICコンコーダンス」−「コロケーション統計」で
Nord Word の前後5語の共起出現関係を確認でき、とても重宝しています。

共起出現関係の窓を狭くしたものであり、係り受け関係の語を中心に取得できていると期待できます、


「関連語検索」では、検索結果の抽出語を用いた「共起ネットワーク」のコマンドボタンが提供されていますが、
「コロケーション統計」では抽出語の一覧表示はされますが、「共起ネットワーク」のコマンドボタンがありません。

「コロケーション統計」の抽出語を用いて共起ネットワークを作図したいと思った場合に、
「文書−抽出語」の表を用意する必要がありますが、
「ツール」「SQLコマンド」で対応できる、操作方法を教えていただけませんか。

出力表のレイアウトは、「ツール」−「文書」−「文書−抽出語」表と同じでも構いませんが、以下のような簡単なレイアウトでも構いません。
・行方向は、1行目は抽出語名であり、2行目以降にデータ
・列方向は、1行目がdan(段落番号)で、2列目以降にデータ

どうそよろしくお願いします。


  [No.1026] Re: 「コロケーション統計」の結果を使った分析 投稿者:HIGUCHI Koichi  投稿日:2012/08/20(Mon) 02:06:24

こんにちは、樋口です。書き込みありがとうございます。

実は「文書×抽出語」表の出力を行う際には、SQLコマンドのみでは少し難し
い、やや複雑な操作をPerlで加えています。そのため、あいにくと、「これを
行うSQLコマンドを」というご要望にはすぐにお答えできません。申し訳あり
ませんが、ひとまずは以下のような方法でしのいでおいていただけますでしょ
うか。

(1)コロケーション統計の上位50〜100程度を選択・コピーして、テキストエ
ディタ等に貼り付けます。(2)貼り付けた語だけを用いた「『文書×抽出語
』表の出力」を、No. 1012の方法で実施して下さい。

No. 1012
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1012&reno=1010&oya=
1010&mode=msgview


書き込みしていただいたご趣旨からしますと、集計単位として「文」を選択し
ての「関連語探索」→「共起ネット」で、ある程度は似た結果を得られるかも
しれません。

ご不便をおかけしますが、どうぞよろしくお願いいたします。


  [No.1027] Re: 「コロケーション統計」の結果を使った分析 投稿者:袋井  投稿日:2012/08/20(Mon) 19:43:53

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

分かりやすくご教示いただきましたので、よく分かりました。

さっそく試してみます。


追伸:
次期バージョンのSOM機能のスクリーンショットを拝見いたしました。
とても上品な画面ですね。
クラスタ境界も見えますが、どのように定めているのでしょうか。
SOMのコードブックベクトルをクラスタリング手法で処理しているのでしょうか?
学習方法は、オンライン型なのか、バッチ型なのか、どちらでしょうか?
(マップサイズが大きくなると、オンライン型では、精度の面ではきついかもしれません)

楽しみにしております。


  [No.1028] Re: 自己組織化マップ機能の開発につきまして 投稿者:HIGUCHI Koichi  投稿日:2012/08/20(Mon) 21:28:51

こんにちは、樋口です。書き込みありがとうございます。

はい、お書きの通りで、各ノードの(コードブック)ベクトルをWard法で分類
しています。用意している色の数に制限があるため、クラスター数は最大12ま
でです(汗。

クラスター数の設定については、(つい先ほどスクリーンショットを公開した)
U-Matrixと相談しながら、行っていただくのが一手でしょうか。ピンクのライ
ン状に見えているところで、クラスターが分かれているかどうかといったこと
です。
http://twitpic.com/alpf4l

学習はオンラインでして、これはRのパッケージの都合です。唯一バッチ型を
実装しているclassパッケージは、ごく個人的な感触としては、少し使いにく
く感じましたので、somパッケージを使っています。これはSOM_PAKを少し扱い
やすくしたようなものかと思います。

Twitterでもつぶやいたのですが、学習にはかなり時間がかかります。70語 x
110文書で6分、70語 x 1200文書だと90分程度。テストしているノード数は
20 x 20で、これを増やすと学習時間も劇的に長くなります。

そんなこんなで、結局は「使えない」ということになるかもしれません。どう
ぞ期待せずにお待ちください。


  [No.1039] Re: 自己組織化マップ機能の開発につきまして 投稿者:袋井  投稿日:2012/08/25(Sat) 12:10:00

樋口先生さま

お世話になります、袋井と申します。


KH coderの中でSOMが利用できることは大きい価値があります。

ご紹介された上品なマップに感動しました。

とてもとても楽しみしております。


SOM_PAkは私も使用経験があります。
ソースコードを眺めて勉強したこともございます。

RのSOM関連パッケージの使用経験もあります。

※私は色々なSOMソフトの使用経験がございますが、
 今は、計算はバッチ型SOMツールを使用し、可視化は自作です。
 U-Matrixは3次元表示しています。
 2次元表示と比較すると、山がそびえるようなクラスタ境界は説得力があります。


クラスタリングについては、先生がご提案された、
クラスタ境界を参考にして、コードブックベクトルをWard法でクラスタリングする方法は、最良だと思います。
 

> 70語 x 110文書で6分、70語 x 1200文書だと90分程度。

学習時間に時間が掛かるということですが、
マップサイズに応じて、ステップを細かく設定して、丁寧な学習をされているからではないでしょうか?

計算時間を短縮する方法として、
学習回数を少なくするという方法もあるかもしれません。

大抵の本では、簡単なデータで大雑把な計算例しか掲載していませんので、
学習回数としてどの程度が適切か、情報が不足していると思います。

一般的に、ニューラルネットの学習は1000回行えば収束すると言われていますので、
学習時間に時間がかかるようであれば、この程度の回数で打ち切りという方法もあるのではないかと思います。

とてもとても楽しみにしております。