時系列データを用いた主成分分析

研究の概要

主成分分析とは複数の項目からなるデータセット、すなわち多次元のデータセットの情報量をできるだけ捉えながらデータの次元を削減する次元削減手法の一つである。具体的にはデータの各項目を合成して主成分と呼ばれる成分を作成します。主成分は元のデータの次元数と同じ数だけ作成できるが、例えば、元のデータの情報量を8割説明するまで主成分を生成するようにすれば、元のデータの次元数より少ない次元でデータを表すことができるようになります。 主成分の作り方としては元のデータ行列の分散共分散行列を考え、この行列の固有値に対応する単位固有ベクトルをデータの各項目の係数として1次結合で表すことで主成分を生成することができます。 自身の研究では主成分分析で用いるデータセットは時系列データセットを考えており、ここでの問題点として、最新の時刻のデータは有益なものであるが、過去の時刻のデータであればあるほど有益なものではなくなります。そのため分散共分散行列を考える際、データの重みを同じにしてしまうと良い精度が得られないといったことが起きます。この問題点を改善し、実行時間の削減などにも努めるといったことを課題として取り組んでいます。

研究・技術の現状

  • 株価のような時系列データについて変動などを正確に予測することは困難
  • 今後の展望・その研究にどんな夢があるのか

     時系列データの変動予測を過去のデータから行うことができれば、例えば、感染症の流行がどの時期にピークとして訪れるのかを予測したりすることができる。他の例では、ある株式会社の株の変動などを考察することで株の売買によって大きな利益が見込めるようになります。このようなことから主成分分析を時系列データに適用し、データの未来の変動予測を精度良く表すことができれば有意義なものであると考える。