[掲示板へもどる]
一括表示

  [No.3314] 語の抽出結果に表示される語が抽出語リストに表示されない 投稿者:   投稿日:2017/11/29(Wed) 07:31:27

過去にも同様のQAがあったようなのですが、多少現象が異なるようなので、質問させてください。

・分析対象の文
AIで「間接業務テック」

・抽出結果の確認
/ AI / で / 「 / 間接 / 業務 / テック / 」 /

ここで「AI」について語の抽出結果詳細を見ると、下記の通り抽出されています。
しかし、抽出語リストには表示されない状況です。

 AI 品詞-その他 茶筌-品詞-未知語

タグとして強制抽出しても良いのですが、他の語の綴りを誤抽出してしまい、うまく指定できません。
未知語としてでよいので、抽出語リストに反映させる方法はないでしょうか?

KHCoderのversionは下記、茶筌を使用しています。
3.Alpha.10L


  [No.3316] Re: 語の抽出結果に表示される語が抽出語リストに表示されない 投稿者:HIGUCHI Koichi  投稿日:2017/11/29(Wed) 11:53:31

こんにちは、樋口です。書き込みありがとうございます。

抽出語リストにはいくつか種類がありますが、どれの話でしょうか。

「品詞別」の表には「未知語」の列があると思うのですが、ないでしょうか。
「頻出150語」の表に載っていないとすれば、単に出現数が少ないからという
可能性はないでしょうか。


  [No.3317] Re: 語の抽出結果に表示される語が抽出語リストに表示されない 投稿者:DOHI  投稿日:2017/11/29(Wed) 12:18:18

早速のご回答ありがとうございます。
抽出語リストの品詞別、未知語を確認しております。
念のため、出力したファイル全体を検索し、他の品詞として記載されていないかを確認したのですが、見当たりませんでした。


  [No.3324] Re: 語の抽出結果に表示される語が抽出語リストに表示されない 投稿者:HIGUCHI Koichi  投稿日:2017/11/29(Wed) 16:33:45

こんにちは、樋口です。書き込みありがとうございます。

「品詞別」の抽出語リストの中に、「未知語」の列はあるけれど、その中に
「AI」がないということですね。失礼いたしました。

未知語として認識される語の中に、記号がつながったものが時折見られ、そう
いうものを省こうとして失敗している感じです。現時点では、半角アルファベ
ット・漢字・ひらがな・カタカナのどれも含まない「未知語」は、「その他」
扱いになってしまいます。

次のバージョンで、全角アルファベットを含む場合にも、「その他」ではなく
「未知語」として認識するよう修正しておきます。

当面は、データ中のアルファベットをすべて半角に変換していただくのが手っ
取り早いかと思います。秀丸やサクラエディタですと容易にそうした変換を行
なえます。


  [No.3326] Re: 語の抽出結果に表示される語が抽出語リストに表示されない 投稿者:DOHI  投稿日:2017/11/29(Wed) 20:18:29

返信ありがとうございました。

「未知語」から記号のみのつながりを省く仕組みがあるとのこと、了解いたしました。

サクラエディタで半角英数字に統一して処理したところ、
無事に「未知語」として検出することができました。