社会との良好な関係づくりを支援する調査、分析、コンサルティング

歌詞から曲の年代を判別する - 数量化2類・判別分析

主題歌の歌詞から、番組が放送された年代を判別する。

前稿、昭和から平成の特撮ヒーロー主題歌の変化では、主題歌の歌詞の年代ごとの特徴を分析しました。

歌詞の文字列のコレスポンデンス分析により、「倒す」「轟く」「敵」などの語は60年代以前の歌に特徴的でした。また、「始まる」「運命」「探す」「自分」などは、2000年以降の番組に特徴的でした。このように、年代ごとに、歌詞に使われている語には特徴があることがわかりました。

このような特徴を利用して、歌詞から年代を判別できないか検討します。

年代を判別するためのモノサシを作る。

どのような語が含まれると、どの年代である可能性が高いのかを調べるため、クロス集計します。


例えば、分析対象とした137曲のうち、「見る・見せる」を含むもの(言及)が55曲あります。%(横)を見ると、55曲のうち40%が2000年以降のものであることがわかります。また、%(縦)をみると、60年代以前は「見る・見せる」を含むもの(言及)は0%でしたが、2000年以降の曲の66.7%には「見る・見せる」が含まれているといます。「見る・見せる」が含まれていると2000年以降の曲である可能性が高そうです。
他の語についても、年代ごとの偏りを調べます。

このように、クロス集計表から、語と年代の関係がある程度わかります。

また、目的変数(ここでは「年代」)との相関により、年代を判別するために重要な語とそれほどでもない語もわかります。

例えば、「見る・見せる」「心・ハート」などは重要そう(出現する年代と相関/偏りがある)ですが、「戦い・戦う・ファイト」「地球」などはそうでもなさそうです。


上のような、語彙と年代との関係から、判別ためのモノサシを作ります。(回帰分析のような方法をイメージしてください。)

曲が、あるグループ(年代)にあてはまるかどうかを判断するために「カテゴリースコア」という点数を定義し、語1を含む場合はプラス何点、語2を含むとプラス何点・・・という関係式をつくります。これが判別のモノサシになります。

今回は「60年代以前」「70年代」「80年代」「90年代」「2000年以降」の5群に分けますので、4本(5-1)のモノサシ(図では1~4軸)が必要になります。

モノサシをあてはめみる。

分析対象とした137曲について、4本のモノサシによって点数(カテゴリースコア)をつけます。左の図は、4本のうち2本の物差し(1軸、2軸)の得点によって図示したものです。

例えば、1軸の得点が-1以下なら「2000年代以降」、2軸の得点が-1以下なら「80年代」である可能性が高そうです。

3軸、4軸も同様にみていくことで、ある曲が5つの群にあてはまる可能性を求め、最終的にどの年代の可能性が高いかを判別します。

判別的中率は?

左は分析対象とした137曲について、上記の方法によって推定された「推定群」と、実際の年代である「実績群」とを比較したものです。

60年代以前(第1群)の10曲の全てが、60年代の曲であると正しく判別することができました。また、70年代(第2群)の47曲のうち、46曲が正しく判別されました。

最終的に、判別的中率は99.3%でした。なかなかの精度です。

これをどう使うのか

ここでは、年代が既知の曲をもとに、歌詞に含まれる語から年代を判別するモノサシを作りました。このモノサシを使って、未知の曲の年代を予測することができます。他にも、過去の天気や曜日と売上のデータから、売上を予測する、社内メールの文章に含まれる語から退職予備軍を予測するなど様々に応用できます。

この方法は数量化2類(説明変数が数量の場合は判別分析)と呼ばれています。

この方法は、機械学習では「教師あり学習」と呼ばれています。AI(人工知能)への注目から、にわかに話題になっていますが、調査・分析の世界で古くから使われてきた多変量解析と原理は同じです。

株式会社ペスコ 社会環境研究室 TEL 03-3435-9588

PAGETOP
Copyright © 株式会社ペスコ 社会環境研究室 All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.