社会との良好な関係づくりを支援する調査、分析、コンサルティング

主題歌の歌詞から年代を判別する - 判別分析

主題歌の歌詞から年代を判別する。

昭和から平成の特撮ヒーロー主題歌の変化では、主題歌の歌詞の年代ごとの特徴を分析しました。

今度は、歌詞から年代を判別します。歌詞の文字列のコレスポンデンス分析により、「始まる」「運命」「探す」「自分」などは、2000年以降の番組に特徴的であるなど、年代ごとに特徴があることがわかりました。

ここでは逆に、歌詞から年代を判別できないか検討します。

年代を判別するモノサシを作る。

どのような語が含まれると、どの年代である可能性が高いのかを調べるため、クロス集計します。


例えば、分析対象とした137曲のうち、「見る・見せる」を含むもの(言及)が55曲あります。%(横)を見ると、55曲のうち40%が2000年以降のものであることがわかります。%(縦)をみると、60年代以前は「見る・見せる」を含むもの(言及)は0%でしたが、2000年以降の曲の66.7%には「見る・見せる」が含まれているといます。

このように、クロス集計表から、語と年代の関係がある程度わかります。

また、目的変数(ここでは「年代」)との相関により、年代を判別するために重要な語とそれほどでもない語もわかります。

例えば、「見る・見せる」「心・ハート」などは重要そう(出現する年代と相関/偏りがある)ですが、「戦い・戦う・ファイト」「地球」などはそうでもなさそうです。


上のような、語彙と年代との関係から、判別ためのモノサシを作ります。(回帰分析のような方法をイメージしてください。)

曲が、あるグループ(年代)にあてはまるかどうかを判断するために「カテゴリースコア」という点数を定義し、語1を含む場合はプラス何点、語2を含むとプラス何点・・・という式をつくります。これが判別のモノサシになります。

今回は「60年代以前」「70年代」「80年代」「90年代」「2000年以降」の5群に分けますので、4本(5-1)のモノサシ(図では1~4軸)が必要になります。

モノサシをあてはめみる。

分析対象とした137曲について、4本のモノサシによって点数(カテゴリースコア)をつけます。左の図は、4本のうち2本(1軸、2軸)の得点によって図示したものです。年代ごとに、固まっていることがわかります。

例えば、1軸の得点が-1以下なら「2000年代以降」、2軸の得点が-1以下なら「80年代」である可能性が高そうです。

3軸、4軸も同様にみていくことで、ある曲が5つの群にあてはまる可能性を求め、最終的にどの年代の可能性が高いかを判別します。

判別的中率は?

左は分析対象とした137曲について、上記の方法によって推定された「推定群」と、実際の年代である「実績群」とを比較したものです。

60年代以前(第1群)の10曲の全てが、60年代の曲であると正しく判別することができました。また、70年代(第2群)の47曲のうち、46曲が正しく判別されました。

最終的に、判別的中率は99.3%でした。なかなかの精度です。

これをどう使うのか

ここでは、年代が既知の曲をもとに、歌詞に含まれる語から年代を判別するモノサシを作りました。既知のデータで作ったモノサシを使って、未知の曲がいつ作られたものなのか、を予測することができます。この方法は数量化2類とか判別分析と呼ばれています。

例えば、メールの文章に含まれる語から退職予備軍を予測するとか、天候その他の条件から売上を予測するなど様々に応用できます。

このような方法は機械学習の文脈では「教師あり学習」と呼ばれています。人工知能との関連でにわかに注目されていますが、調査の世界で古くから使われてきた多変量解析と原理は同じです。

株式会社ペスコ 社会環境研究室 TEL 03-3435-9588

PAGETOP
Copyright © 株式会社ペスコ 社会環境研究室 All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.