樋口先生、
明石と申します、ご教示を頂戴できれば大変に助かります。
どうぞ、よろしくお願いいたします。
「文書−抽出語」表の出力が、KHcoderの主たる利用目的です。
【不具合現象】
入力したテキストの文書数(段落数)と、
出力する「文書−抽出語」表の出力の文書数(段落数)とが、
一致しない現象に遭遇しています。
入力したテキストの文書数(段落数)は、すべての行で、
何かしらのテキストが格納されています。
空行、空白のみ、の文書は含みません。
「文書−抽出語」表の出力に際して、以下の設定を行います。
・抽出語は、強制抽出語(タグ)に登録した語のみを使う(約1000語)
・頻度は1以上
上記の不具合現象が起こるとすれば、
どのような理由が考えられるでしょうか?
前処理−分析対象ファイルのチェック
で、補修正するメッセージが表示されますが、
この際に、何かしらの理由で、文書数が減るということはあるのでしょうか?
文書数が10万件以上と大規模であることから、
「文書−抽出語」表の出力でdropされている文書の特定ができない状況です。
もし、
入力ファイルに文書idを付与して、
「文書−抽出語」表の出力に際して文書idも一緒に出力できれば、
「文書−抽出語」表の出力でdropされている文書の特定ができるかも
しれませんが、現状ではできません。
ご教示いただけましたら、大変に助かります。
どうぞ、よろしくお願いします。