Swin Transformerってのがあるんだと(object detectionのSOTAモデル)
短くてもいいから、気軽にブログ書くようにしていかないとやらないと気づいた。きれいに書くことより、とりあえず書く。
最近のobject detectionですごいモデルって何なのか調べていたら出会った。 code with paperのobject detection on COCOを見てみると下記のようにSwin Transformerが1位でした。
Swin TransformerはMicrosoft Researchが開発発表した画像認識モデルで名前の通りTransformerを使っています。 この画像認識モデルをObjectDetectionモデル(MASK-RCNNとかの)のバックボーンで利用してSOTAをとったようです。 DETRっていうObjectDetectionのモデルとかもそうだけど、Transformerの利用が最近の流行りですな。
swin transformerはpytorchベースの公式実装もMicrosoftが公開してるのと、mmdetectionをforkして実際にobjectdetectionに組み込んだモデルというのも利用できる形になっています。