機械学習研究とオリジナリティ

研究にはオリジナリティ(独自性)が欠かせない。他人の結果の追試は数件必要だが、それ以上は単に「車輪の再発明」である。機械学習、特にお金が絡む画像や動画の研究では、独自な結果を得るのは大変難しいと思う。大学や研究所に加えて、大小多くの企業が、優秀な人材と豊富な資金を投入している。かなりの研究結果が、学術論文誌ではなくweb上で自由に読めたり、プログラムやデータが手に入る。更に、誰でも参加可能なコンテストも開催されている。試しに “image video cup competition machine learning”で検索すると大量に見つかる。有名なのは Kaggle だが、ここには機械学習による予測コンテストが約250件ある。 画像や動画が多いが、表情や身振りなども、6年前から行われている。有望な結果を参考に企業も改良をしているから、審査中を含めて多くの特許があると思われる。

研究を始める際には、これらを良く調べた上、例えば修士論文がきれいにまとまる2-3年後の状況を予想して、競争に勝てそうなら始める訳だ。画像や動画の研究は、非常に混んでいる上に理論が完成しつつあるので、私はやろうとは思わない。これらに比べると分子の機械学習はまだましだが、製薬会社を始め強力な競争相手もいる。私達が機械学習に物理や化学の知識を組み合わせようとする理由は、オリジナリティを得るためである。又、既にあるプログラムでデータを分析する研究なら、データをコンテストに出せば終わりではないか?データ分析の技術は急速にコモディティ化しそうだし、長期間価値を保つデータサイエンスの知識とは何か悩ましい。

先日聞いた修論発表にも、画像や動画の機械学習が数件あった。良いプログラムが公開や販売されていて簡単に手に入る上、過去の研究結果や手に入るプログラムとの比較も余りなされなかったので、これらの研究の価値に疑問を持った。