[掲示板へもどる]
一括表示

  [No.2320] 入力の文書数〜出力の文書数 投稿者:明石  投稿日:2015/12/10(Thu) 19:54:09

樋口先生、

明石と申します、ご教示を頂戴できれば大変に助かります。
どうぞ、よろしくお願いいたします。


「文書−抽出語」表の出力が、KHcoderの主たる利用目的です。


【不具合現象】
入力したテキストの文書数(段落数)と、
出力する「文書−抽出語」表の出力の文書数(段落数)とが、
一致しない現象に遭遇しています。



入力したテキストの文書数(段落数)は、すべての行で、
何かしらのテキストが格納されています。
空行、空白のみ、の文書は含みません。


「文書−抽出語」表の出力に際して、以下の設定を行います。
・抽出語は、強制抽出語(タグ)に登録した語のみを使う(約1000語)
・頻度は1以上




上記の不具合現象が起こるとすれば、
どのような理由が考えられるでしょうか?


前処理−分析対象ファイルのチェック
で、補修正するメッセージが表示されますが、
この際に、何かしらの理由で、文書数が減るということはあるのでしょうか?




文書数が10万件以上と大規模であることから、
「文書−抽出語」表の出力でdropされている文書の特定ができない状況です。


もし、
入力ファイルに文書idを付与して、
「文書−抽出語」表の出力に際して文書idも一緒に出力できれば、
「文書−抽出語」表の出力でdropされている文書の特定ができるかも
しれませんが、現状ではできません。



ご教示いただけましたら、大変に助かります。
どうぞ、よろしくお願いします。


  [No.2321] Re: ケース数(段落数)が減ってしまう場合 投稿者:HIGUCHI Koichi  投稿日:2015/12/10(Thu) 21:14:18

こんにちは、樋口です。書き込みありがとうございます。

ケース数が減る場合には、まず「分析対象ファイルのチェック」と「自動修正」
が有効です。しかしながら、

> 前処理−分析対象ファイルのチェック
> で、補修正するメッセージが表示されますが、
> この際に、何かしらの理由で、文書数が減るということはあるのでしょうか?

マニュアルに記載していますように、「自動修正」を行なうと文字化け部分を
削除します。この結果として、行が空行になってしまい、段落数が減ると言う
ことは起こりうるでしょう。

この場合には、KH Coderのメイン画面(メニューのある画面)の「文書の単純
集計」欄の表示で、すでに段落数が入力ファイルよりも減っていると思います。


対策としては、テキスト形式ではなく、CSV形式かExcel形式のデータを準備す
るのが一案でしょう。これらの形式では、「自動修正」によって空行になって
しまってもケース数が減りません。(個々のセルをH5単位として扱うためです。
詳しくはマニュアル A.3.1節をご覧ください)

テキストの列だけでなく、IDの列も準備していただけば、トラブルシュートも
しやすくなるでしょう。

CSV形式・Excel形式のファイルの作成についてはこちらをご覧下さい。
http://www.slideshare.net/khcoder/data-preparation-for-kh-coder


  [No.2323] 【御礼】Re: ケース数(段落数)が減ってしまう場合 投稿者:明石  投稿日:2015/12/11(Fri) 06:02:54

樋口先生、

明石と申します、ご教示を頂戴いただきまして、誠にありがとうございました。

先生が記載してくださいましたように、
前処理−分析対象ファイルのチェックで、
分析対象として不適切ということで、削除された可能性が高いようですね。

ご助言に沿って、ファイル形式を変えてやってみます。

助かりました。
心から御礼を申し上げます。

一人で悶々とせずに、
勇気を振り絞って投稿させてよかったな、と思います。


ーーー
以下、投稿とは関係ありませんが、ご参考まで。


先のメールで、
「文書−抽出語」表の出力が主たる目的と書かせていただきましたが、
この機能は、代表的なテキストマイニング製品(Tr*Te*、T*Sなど)でも
十分にできていません。

まして、文脈ベクトルなどは、まったくできていません。


私は、KHcoderを利用させていただき、
「文書−抽出語」表、文脈ベクトルの2つを、生成出力させていただいています。


「文書−抽出語」表の出力結果は、トピックモデルにより、語の潜在的な意味のまとまりを抽出します。

「文書−抽出語」表の出力結果をそのままクラスタリングする方法もあるかと思いますが、
ベクトルが高次元になると、精度は著しく低下します。

トピックモデルにより、非常によい、語のまとまりを提示してくれます。

行列分解のNMFも、似たような結果になります。


KHcoderの素晴らしい機能に感謝していることを、お伝えいたしました。
ありがとうございます。






> こんにちは、樋口です。書き込みありがとうございます。
>
> ケース数が減る場合には、まず「分析対象ファイルのチェック」と「自動修正」
> が有効です。しかしながら、
>
> > 前処理−分析対象ファイルのチェック
> > で、補修正するメッセージが表示されますが、
> > この際に、何かしらの理由で、文書数が減るということはあるのでしょうか?
>
> マニュアルに記載していますように、「自動修正」を行なうと文字化け部分を
> 削除します。この結果として、行が空行になってしまい、段落数が減ると言う
> ことは起こりうるでしょう。
>
> この場合には、KH Coderのメイン画面(メニューのある画面)の「文書の単純
> 集計」欄の表示で、すでに段落数が入力ファイルよりも減っていると思います。
>
>
> 対策としては、テキスト形式ではなく、CSV形式かExcel形式のデータを準備す
> るのが一案でしょう。これらの形式では、「自動修正」によって空行になって
> しまってもケース数が減りません。(個々のセルをH5単位として扱うためです。
> 詳しくはマニュアル A.3.1節をご覧ください)
>
> テキストの列だけでなく、IDの列も準備していただけば、トラブルシュートも
> しやすくなるでしょう。
>
> CSV形式・Excel形式のファイルの作成についてはこちらをご覧下さい。
> http://www.slideshare.net/khcoder/data-preparation-for-kh-coder