Re: 【御礼】Re: ケース数(段落数)が減ってしまう場合 (明石) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.2323] 【御礼】Re: ケース数(段落数)が減ってしまう場合 投稿者:明石  投稿日:2015/12/11(Fri) 06:02:54

樋口先生、

明石と申します、ご教示を頂戴いただきまして、誠にありがとうございました。

先生が記載してくださいましたように、
前処理−分析対象ファイルのチェックで、
分析対象として不適切ということで、削除された可能性が高いようですね。

ご助言に沿って、ファイル形式を変えてやってみます。

助かりました。
心から御礼を申し上げます。

一人で悶々とせずに、
勇気を振り絞って投稿させてよかったな、と思います。


ーーー
以下、投稿とは関係ありませんが、ご参考まで。


先のメールで、
「文書−抽出語」表の出力が主たる目的と書かせていただきましたが、
この機能は、代表的なテキストマイニング製品(Tr*Te*、T*Sなど)でも
十分にできていません。

まして、文脈ベクトルなどは、まったくできていません。


私は、KHcoderを利用させていただき、
「文書−抽出語」表、文脈ベクトルの2つを、生成出力させていただいています。


「文書−抽出語」表の出力結果は、トピックモデルにより、語の潜在的な意味のまとまりを抽出します。

「文書−抽出語」表の出力結果をそのままクラスタリングする方法もあるかと思いますが、
ベクトルが高次元になると、精度は著しく低下します。

トピックモデルにより、非常によい、語のまとまりを提示してくれます。

行列分解のNMFも、似たような結果になります。


KHcoderの素晴らしい機能に感謝していることを、お伝えいたしました。
ありがとうございます。






> こんにちは、樋口です。書き込みありがとうございます。
>
> ケース数が減る場合には、まず「分析対象ファイルのチェック」と「自動修正」
> が有効です。しかしながら、
>
> > 前処理−分析対象ファイルのチェック
> > で、補修正するメッセージが表示されますが、
> > この際に、何かしらの理由で、文書数が減るということはあるのでしょうか?
>
> マニュアルに記載していますように、「自動修正」を行なうと文字化け部分を
> 削除します。この結果として、行が空行になってしまい、段落数が減ると言う
> ことは起こりうるでしょう。
>
> この場合には、KH Coderのメイン画面(メニューのある画面)の「文書の単純
> 集計」欄の表示で、すでに段落数が入力ファイルよりも減っていると思います。
>
>
> 対策としては、テキスト形式ではなく、CSV形式かExcel形式のデータを準備す
> るのが一案でしょう。これらの形式では、「自動修正」によって空行になって
> しまってもケース数が減りません。(個々のセルをH5単位として扱うためです。
> 詳しくはマニュアル A.3.1節をご覧ください)
>
> テキストの列だけでなく、IDの列も準備していただけば、トラブルシュートも
> しやすくなるでしょう。
>
> CSV形式・Excel形式のファイルの作成についてはこちらをご覧下さい。
> http://www.slideshare.net/khcoder/data-preparation-for-kh-coder


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)