調査分析スキル、技術的専門性、社会に対する洞察力でコミュニケーションを支援

歌詞から曲の年代を判別する - 数量化2類・判別分析

主題歌の歌詞から、番組が放送された年代を判別する。

前稿、昭和から平成の特撮ヒーロー主題歌の変化では、特撮ヒーロー番組の主題歌の歌詞について、年代ごとの特徴を分析しました。

歌詞の文字列のコレスポンデンス分析により、「倒す」「轟く」「敵」などの語は60年代以前の歌に特徴的であることがわかりました。また、「始まる」「運命」「探す」「自分」などは、2000年以降の番組に特徴的でした。このように、年代ごとに、歌詞に使われている語には特徴があることがわかりました。

今回は、このような特徴を利用して、逆に歌詞から年代を判別できないか検討します。

年代を判別するためのモノサシを作る。

どのような語が含まれると、どの年代である可能性が高いのかを調べるため、クロス集計します。


表の左上の語「見る・見せる」についてみると、分析対象とした137曲のうち、歌詞に「見る・見せる」が含まれる(言及)曲が55曲、含まれない(非言及)曲が82曲あります。

「%(横)」欄を見ると、「見る・見せる」を含む55曲のうち40%が2000年以降のものであることがわかります。また「%(縦)」欄をみると、60年代以前は「見る・見せる」を含むもの(言及)は0%でしたが、2000年以降の曲の66.7%には「見る・見せる」が含まれています。このことから「見る・見せる」が含まれる曲は2000年以降の曲である可能性が高いことがうかがえます。
他の語についても、年代ごとの偏りを調べます。

このように、クロス集計表から、語と年代の関連性がある程度わかります。特定の年代に偏っている語と、いくつもの年代に万遍なく出現している語があります。

年代を判別するためには、特定の年代に偏っている語、すなわち、年代と関連がある語が重要です。左の表は、その関連性を計算したものです。

数学的な説明は省きますが「クラメールの連関係数」「カイ2乗値」が大きいほど、年代との関連性が強い語です。また「p値」が小さいほど、その結果は確からしいといえます。「判定」はそれらを勘案して、それぞれの語の年代との関連性を評価したものです。

例えば、「見る・見せる」「心・ハート」などは年代と関連が強く(出現する年代と相関/偏りがある)、「戦い・戦う・ファイト」「地球」などは年代とはあまり関係がなさそうという見方をします。


上のような、語彙と年代との関係から、判別ためのモノサシを作ります。(回帰分析のような方法をイメージしてください。)

曲が、あるグループ(年代)にあてはまるかどうかを判断するために「カテゴリースコア」という点数を定義し、語1を含む場合はプラス何点、語2を含むとプラス何点・・・という関係式をつくります。これが判別のモノサシになります。

今回は「60年代以前」「70年代」「80年代」「90年代」「2000年以降」の5群に分けますので、4本(5-1)のモノサシ(図では1~4軸)が必要になります。

モノサシをあてはめみる。

分析対象とした137曲について、4本のモノサシによって点数(カテゴリースコア)をつけます。左の図は、4本のうち2本の物差し(1軸、2軸)の得点によって図示したものです。

例えば、1軸の得点が-1以下なら「2000年代以降」、2軸の得点が-1以下なら「80年代」である可能性が高そうです。

3軸、4軸も同様にみていくことで、ある曲が5つの群にあてはまる可能性を求め、最終的にどの年代の可能性が高いかを判別します。

的中率は?

左は分析対象とした137曲について、上記の計算によって推定された「推定群」と、実際の年代である「実績群」とを比較したものです。

60年代以前(第1群)の10曲の全てが、60年代の曲であると正しく判別することができました。また、70年代(第2群)の47曲のうち、46曲が正しく判別されました。

最終的に、判別的中率は99.3%でした。なかなかの精度※です。
※ 今回は判別のモノサシ作りに使ったデータを評価しているので精度が高いのは当然といえます。本来は、判別のモノサシ作りに使わなかった曲のデータで的中率を求めますので、精度はもう少し低くなるはずです。

これをどう使うのか

今回は、年代が既知の曲をもとに、歌詞に含まれる語から年代を判別するモノサシを作りました。このモノサシを使って、未知の曲の年代を予測することができました。このように既知のデータを利用して、将来を予測することができます。

例えば、過去の天気や曜日と売上のデータから売上を予測する、社内メールの文章に含まれる語から退職予備軍を予測するなど様々に応用できます。

この方法は、機械学習の文脈では「教師あり学習」と呼ばれるものです。AI(人工知能)への注目から、にわかに話題になっていますが、調査・分析の世界では、数量化2類(説明変数が数量の場合は判別分析)と呼ばれ、古くから利用されてきた手法です。

株式会社ペスコ 社会環境研究室 TEL 03-3435-9588

PAGETOP
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.