Swin Transformerってのがあるんだと(object detectionのSOTAモデル)

短くてもいいから、気軽にブログ書くようにしていかないとやらないと気づいた。きれいに書くことより、とりあえず書く。

最近のobject detectionですごいモデルって何なのか調べていたら出会った。 code with paperのobject detection on COCOを見てみると下記のようにSwin Transformerが1位でした。

f:id:kuroko1t:20210516130222p:plain — coco test-dev benchでSOTAとってる

Swin TransformerはMicrosoft Researchが開発発表した画像認識モデルで名前の通りTransformerを使っています。この画像認識モデルをObjectDetectionモデル(MASK-RCNNとかの)のバックボーンで利用してSOTAをとったようです。 DETRっていうObjectDetectionのモデルとかもそうだけど、Transformerの利用が最近の流行りですな。

swin transformerはpytorchベースの公式実装もMicrosoftが公開してるのと、mmdetectionをforkして実際にobjectdetectionに組み込んだモデルというのも利用できる形になっています。