テキストマイニングの方向性に関して

2020年11月5日

これまでの状況について

テレビドラマに特化してみることで、「トレンド予測に繋がるようなテキストマイニングができないものか?」と思い、データの蓄積と簡易リポートを記事にしながら眺めているのですが、なかなか予測材料のターゲットになりそうな仮説を立てられずにいます。

ドラマというのは直近トレンドを強く反映しているコンテンツですので、割と簡単に特徴的なキーワードと関係語句が浮き上がり、なんらかの仮説を立てるヒントが見つかるものと思ってましたが……。

今後の展開について

1話毎の解析ではなく、シーズンをまとめて解析してみるなどの切り口も必要なのかもしれませんが、ブログアクセスの検索キーワードを月次で分析してみて、素材と反応を複合的に見ることで有用なターゲットが見つからないものか?あたりを模索してみようかと思案しております。

余談ですが…

テレビの字幕情報というのは、番組データに含まれる映像(テロップなどを含む)や音声という膨大な情報と比較すると、ほんのわずかな情報量でしかないのですが、それでもテキスト量としては十分にテキストマイニングの対象として価値のあるターゲットだと思って取り組んでいます。

因みに、「番組本体データに対して、字幕情報データってどの程度の割合かな?」と思い計算してみましたら…、1時間番組の本体データが大体3GB~5GBくらいなので、少ない方の3GBで計算しても字幕情報データは10万分の1に満たない割合でした。