Re: 語の抽出結果に現れる語が、抽出後リストの中に見つかりません (田中元) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1387] Re: 語の抽出結果に現れる語が、抽出後リストの中に見つかりません 投稿者:田中元  投稿日:2013/08/31(Sat) 13:05:07

 複合語という言葉に注目して、過去の質問を探してみました。

「■ [No.1297] Re: 「強制抽出」機能の扱いについて」に以下の記述が見つかりました。

「お書きいただいているように、まずは「強制抽出」機能を使って「タグ」品詞
として取り出すの方法をお試しいただくのが良いかと思います。ただ、こうし
た場合には、この機能の扱いには少し注意が必要です。

たとえばデ-タ中に「(^_^)/~」があり、「強制抽出」欄では以下のように指
定したとします。

> ^_^
> (^_^)/~

この場合は、デ-タ中の「(^_^)/~」が、「(」「^_^」「)」「/」「~」といっ
た語に分割されると思います。「(^_^)/~」よりも上で指定した「^_^」が優先
され、「^_^」が先に取り出されるためです。

したがって「強制抽出」機能を使用する場合には、より長い顔文字から先に指
定する必要があるでしょう。


 強制抽出する語のリストを作成する際に、エクセルで用語を文字数の順に並べることで、複合の度合いが高い語を優先的に抽出することができた模様です。

 おそらく現時点ではこれで問題ないと思われますが、何かお気づきの点がありましたらご案内いただけますと幸甚です。

 科学用語同士の「距離」を知りたいと、畑違いながら長年考えていました。たいへん優れたツールをご提供いただき、感謝の申しようもありません。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)