Re: KH Coderで前処理をしない方法 (平塚) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3508] KH Coderで前処理をしない方法 投稿者:平塚  投稿日:2018/02/25(Sun) 23:06:40

平塚と申します。

KHcoderでデータベース上のキーワードを分析しようと努力しています。
(KHcoderはVer2.00f OSはWindows10)※「こころ」による動作は確認済みです。尚、英語機能を使用していますのでマニュアルに従い「設定」で Lemmatization でStanford POS Tagger を指定しています。

先生の本来の目的とは異なると思いますが、KHcoderを後処理のテキストマイニングのクラスター分析や共起グラフの描画機能として使いたいと思い着目しました。前処理の品詞分解は別の手段で済んでいるとの前提です。
ですから、当方が準備したキーワード群をそのまま品詞分解せずにクラスター分析などを行わせたい、という事を考えています。Rを組めば良いだろうと言われるかも知れませんが、定常的に行うためにはUIツールを使うのが作業者による個人差も少ないので何とかKHcoderで実現できればと思っています。
ただ、当方が扱おうとしているキーワードは、結構変で英数字以外に「(」「+」「,」等を含んでいます。以下はキーワードの一例。こんなのが数多くて複合語を個別に指定するのは諦めています。「」は見やすくするために付けました。

「imazapyr, (+/-)-2-[4,5-dihydro-4-methy1-4-(1-methylethyl)-5-oxo-1H-imidazol-2-yl]-3-pyridinecarboxylic acid」

(分析しても低頻度で結果として出てこないと思うが、これを一単語とみなして入力はさせたい。品詞は名詞で結構です。)
※ファイル形式は、この類の文字列が並んだCSVファイル。約20000行あります。前処理時間は5分以内でありデンドログラム等は作図可能なので扱えないデータ量ではないと思います。

工夫して前後をダブルクォーテーションで囲むことはできるのですが色々指定してもキーワードが分解されてしまいます。ダブルクォーテーションで文字列を囲み、次のキーワードのために一文字半角スペースを空ければ分解されないかと思いましたが、Stanford POS Tagger を指定(stop word 未指定)している場合は、"A+B"は'A" "+" "B"に分解される様です。stop wordの指定/未指定も関係なし。無理矢理"A+B"を"A""+""B"(+をダブルクォーテーションで囲む)も試しましたが効果なし。
Stemmingで snowball を指定するともっと酷くダブルクォーテーション自体を文字として抽出しています。

「社会調査のための計量テキスト分析」の資料Aや添付のマニュアルも見たのですが、前処理の品詞分解プロセスをバイパスする手順がわからずお聞きする次第です。

お前の目的では無理だ、というならば諦めます。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)