こんにちは、樋口です。書き込みありがとうございます。
> C,C7,Csus4のような順番で入力してしまっていたので,必ずCというコード
> は優先されて別になっていたのかと思います。sus4やadd9などのより出現
> 頻度の低いものから並べていった方が良いということでしょうか。
いえ、出現頻度は関係ありません。長い文字列ほど上になるようにしてくださ
い。
例えば「Cadd9」というデータがあったとします。
強制抽出欄に、「C」「add9」「Cadd9」の順に入力されていた場合、まずはじ
めに「C」が強制抽出されて、残るのは「add9」のみとなります。このため
「Cadd9」は抽出されず、「C」と「add9」の2語という判定になります。
強制抽出欄に「Cadd9」が先に入力されていれば、「Cadd9」というデータから
は、「Cadd9」のみが抽出されます。
> これを応用して,サビの初めのコードの分析というのをやめ,サビを文とし
> て区切って共起ネットワークを描くということも可能でしょうか?
そうですね、すべての曲のサビのみを入力したファイルを作って、サビだけの
共起ネットワークも可能かと思います。
> この方法だとtxtファイルをひとつずつ作成
えっと、チュートリアルの「こころ」は1つのファイル内に全データがありま
すが、「上」「中」「下」それぞれの部分に特徴的な語を出したりといったこ
とができています。
分析の目的にもよりますが、かならずしも、txtファイルをひとつずつ作成す
る必要はないかと思います。