[掲示板へもどる]
一括表示

  [No.1384] 語の抽出結果に現れる語が、抽出後リストの中に見つかりません 投稿者:田中元  投稿日:2013/08/31(Sat) 00:37:03

 初めてkh coderに触れ、わくわくしております。

 さて、質問ですが、デフォルトの設定ですと「アルケン」という語が「アル/ケン」と分けられてしまいましたので、品詞を名詞に限り、強制抽出する語をファイルに記述しました(そのファイルの中に「アルケン」を含めてあります)。
 その結果、語の抽出結果に「 不 / 飽和 / 化合 / 物 / における / 求電子 / 付加反応 /   /   / アルケン / 、 / アルキン 」という具合に表示され、問題は解決したかに思われたのですが、自動的にエクセルが起動して生成される抽出後リストの中には「アルケン」という語が現れません。

 何を見落としているのか、ご指摘いただけないでしょうか。


  [No.1385] Re: 語の抽出結果に現れる語が、抽出後リストの中に見つかりません 投稿者:HIGUCHI Koichi  投稿日:2013/08/31(Sat) 01:33:52

こんにちは、樋口です。書き込みありがとうございます。

「強制抽出」した語には「タグ」という品詞名が付与されます。

抽出語リストを作成する際に「品詞別」を選び、Excelが開いたら
「タグ」の列を探してみてください。


  [No.1386] Re: 語の抽出結果に現れる語が、抽出後リストの中に見つかりません 投稿者:田中元  投稿日:2013/08/31(Sat) 04:07:48

> 抽出語リストを作成する際に「品詞別」を選び、Excelが開いたら
> 「タグ」の列を探してみてください。

 ご案内、ありがとうございます。「アルケン」が一語として認識されました。

 ところで、似たケースでもう一つ不明なことに遭遇し、解決できないでおります。引き続き質問させていただきたくお願いいたします。

 強制抽出する語をファイルにまとめたのですが、「スペクトル」「赤外スペクトル」「電子スペクトル」などはそれぞれ別の語としてカウントされる一方で、「イオン」はカウントされるのですが「イオン結合」がカウントされません。

 「語の抽出結果 詳細」を見ましたところ、「イオン - タグ 結合 - サ変名詞」とありまして、ここに問題がありそうです。「イオン結合」も「共有結合」も同じく強制抽出をする語のファイルに記しましたが、共有結合では「共有結合 - タグ」となっており、きちんとカウントされます。

 この点のご解説と解決法をご提示いただけないでしょうか。
 


  [No.1387] Re: 語の抽出結果に現れる語が、抽出後リストの中に見つかりません 投稿者:田中元  投稿日:2013/08/31(Sat) 13:05:07

 複合語という言葉に注目して、過去の質問を探してみました。

「■ [No.1297] Re: 「強制抽出」機能の扱いについて」に以下の記述が見つかりました。

「お書きいただいているように、まずは「強制抽出」機能を使って「タグ」品詞
として取り出すの方法をお試しいただくのが良いかと思います。ただ、こうし
た場合には、この機能の扱いには少し注意が必要です。

たとえばデ-タ中に「(^_^)/~」があり、「強制抽出」欄では以下のように指
定したとします。

> ^_^
> (^_^)/~

この場合は、デ-タ中の「(^_^)/~」が、「(」「^_^」「)」「/」「~」といっ
た語に分割されると思います。「(^_^)/~」よりも上で指定した「^_^」が優先
され、「^_^」が先に取り出されるためです。

したがって「強制抽出」機能を使用する場合には、より長い顔文字から先に指
定する必要があるでしょう。


 強制抽出する語のリストを作成する際に、エクセルで用語を文字数の順に並べることで、複合の度合いが高い語を優先的に抽出することができた模様です。

 おそらく現時点ではこれで問題ないと思われますが、何かお気づきの点がありましたらご案内いただけますと幸甚です。

 科学用語同士の「距離」を知りたいと、畑違いながら長年考えていました。たいへん優れたツールをご提供いただき、感謝の申しようもありません。


  [No.1388] Re: 複数の語を「強制抽出」する場合 投稿者:HIGUCHI Koichi  投稿日:2013/08/31(Sat) 22:46:21

こんにちは、樋口です。書き込みありがとうございます。

ご自身で検索して対応方法をお見つけいただいたようでありがとうございます。

この点、マニュアルに書いてあってしかるべきなのですが、ver.1からver.2へ
の移行時に説明が無くなってしまって、現在までそのままきてしまいました。
そこで、この機会に以下の説明を加えさせていただきました。

> この欄に複数の言葉を入力した場合、上の方に入力した言葉ほど優先順位が
> 高いものとKH Coderは認識する。特に、重複する部分がある言葉を複数入力
> する場合には、優先順位を考えなければならない。例えばこの欄に「ネット
> 利用」と「利用料金」の両方を入力していて、分析対象ファイル内に「インタ
> ーネット利用料金は年々低下している」という表現があった場合を考えてみ
> よう。「ネット利用」の方を上に入力していた場合は、「インター/ネット
> 利用/料金」という分割になり、「利用料金」という語は抽出されない。逆
> に「利用料金」の方が上に入力してあれば、「インターネット/利用料金」
> という分割になり、「ネット利用」は抽出されない。

マニュアル改善のきっかけをいただき、大変ありがとうございました。

なお蛇足ながら、長い言葉を上に入れるという形で基本的には大丈夫かと思い
ますが、「短くてもこれは落としたくない」というものがある場合にはご注意
ください。また、多くの場合は「強制抽出」で事足りるかと思いますが、もし
も「強制抽出」では不十分とお感じになった場合には、茶筌やMeCabの辞書に
単語を登録するという方法もありうるでしょう。(それなりに煩雑ですので、
必ずしもお勧めしませんが)