技術、制度、組織と社会との良好な関係づくりを支援する調査、分析、コンサルティング

テキストマイニング

【テキストマイニングについて】

文章中に出てくる単語の出現回数や出現頻度、単語同士の結びつきを文章ごとに比較したうえで、個々の文章の持つ特徴を数理的に把握する分析手法です。
文章そのものを数値で把握することはできません。しかし文章を単語に分解したうえで、単語の出現回数や単語同士の結びつきは数理的に把握することができます。これらの作業は従来手作業で行われていましたが、分析には膨大な時間が必要でした。しかし、自然言語処理技術の発達により、膨大なテキストデータに対し分析を加えることができるようになりました。テキストマイニングのツールにはKH CODER(樋口耕一)やIBM SPSS Text Analytics for Surveys(IBM)、TRUE TELLER(野村総合研究所)などのソフトウェアやASPのサービスなどがあります。
テキストマイニングにより、単語の出現回数や結びつきをみることで、膨大なテキストデータを読まなくても「このテキストはどのようなことが述べられているか」を一目で把握できます。また、文章どうしを比較することで「この文章には○○という単語が他と比べ多く出現している」「この文章では△△と□□の単語が結びついているが、別の文章では△△と○○の単語が結びついている」など、文章の持つ特徴を把握できます。
特に、定性データであるテキストを計量可能なデータとなることで、様々な統計手法が適用できるようになります。例えば、単語どうし、または単語とその他の属性(例えば、性別、地域別、時期別、商品別等)と文章との関係をクロス集計や対応分析(コレスポンデンス分析)により分析することで、これまで定性的に感じていた傾向(例えば、商品AとBそれぞれの魅力や特徴、ある政策を支持する根拠 等々)を定量的に把握したり、対象をグルーピングすることができます。他にも回帰分析や判別分析などを用いて予測モデルを作ることもできます。例えば「このような話題を持ち出すと商品を購入する確率が高まる」といったものです。
仮説を設定したうえでテキストマイニングが行われることもありますが、仮説を設定せずに探索的に行うことで新しい発見が得られます。

簡単には書き尽くせませんが、テキストデータは宝の山です。
ぜひ分析してみましょう。私たちがお手伝いいたします。

【簡単な分析例】

高レベル放射性廃棄物処分「科学的特性マップ」への各地の反応
高浜原子力発電所の仮処分命令取消判決に関する社説の分析

株式会社ペスコ 社会環境研究室 TEL 03-3435-9588

PAGETOP
Copyright © 株式会社ペスコ 社会環境研究室 All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.