Re: 入力の文書数〜出力の文書数 (明石) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.2320] 入力の文書数〜出力の文書数 投稿者:明石  投稿日:2015/12/10(Thu) 19:54:09

樋口先生、

明石と申します、ご教示を頂戴できれば大変に助かります。
どうぞ、よろしくお願いいたします。


「文書−抽出語」表の出力が、KHcoderの主たる利用目的です。


【不具合現象】
入力したテキストの文書数(段落数)と、
出力する「文書−抽出語」表の出力の文書数(段落数)とが、
一致しない現象に遭遇しています。



入力したテキストの文書数(段落数)は、すべての行で、
何かしらのテキストが格納されています。
空行、空白のみ、の文書は含みません。


「文書−抽出語」表の出力に際して、以下の設定を行います。
・抽出語は、強制抽出語(タグ)に登録した語のみを使う(約1000語)
・頻度は1以上




上記の不具合現象が起こるとすれば、
どのような理由が考えられるでしょうか?


前処理−分析対象ファイルのチェック
で、補修正するメッセージが表示されますが、
この際に、何かしらの理由で、文書数が減るということはあるのでしょうか?




文書数が10万件以上と大規模であることから、
「文書−抽出語」表の出力でdropされている文書の特定ができない状況です。


もし、
入力ファイルに文書idを付与して、
「文書−抽出語」表の出力に際して文書idも一緒に出力できれば、
「文書−抽出語」表の出力でdropされている文書の特定ができるかも
しれませんが、現状ではできません。



ご教示いただけましたら、大変に助かります。
どうぞ、よろしくお願いします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)