YoloV5 Examination

A. Model içerisindeki blocklar

Yolo modeli içerisinde farklı blocklar bulunmaktadır. Bu blockların her birinin bir işlevi vardır.

1. Spatial Compressor Convolution Block

Untitled

Bu blockun amacı gelen görüntünün spatial(width ve height) boyutlarını yarıya düşürmektir(bunu convolution’ın stride’ının 2 olması sayesinde gerçekleştirir). Bu block genellikle channel sayısını 2 katına çıkaracak şekilde tasarlanmıştır. Bu block sayesinde convolution kullanılarak görüntülerin boyutu küçültülür ve feature extraction yapılır.

2. Channel Compressor Convolution Block

Untitled

Bu block spatial boyutlara karışmazken(convolution stride’ı 1) channel sayısında değişiklik yapar. Genelde channel sayısını yarıya düşürecek şekilde çalışır.

3. C3 Block

Untitled

Bu block için yolo’nun genel blocku denebilir. Bu block içerisinde bottleneck ve residual yapıları ile birlikte feature’ların çıkarılması ve anlamlandırılması işlevi görür. Bu block içerisinde bir convolution ile channel sayısı düşürülüp bottleneck blockundan geçirilir. Bottleneck blocku computational olarak daha düşük olup feature extraction sağlar. Daha sonrasında ilk baştaki input residual olarak bu bottleneckten çıkan feature ile birleştirilir ve convolution’dan geçirilip channel sayısı ilk duruma(bazı durumlarda output channel sayısı farklı olabilir) getirilir.

4. SPPF( Spatial Pyramid Pooling) Block

Untitled

Bu block spatial anlamda pooling işlemi gerçekleştirerek farklı boyutlardaki spatial maximumları çıkarır ve bunları birleştirerek ilerletir. Bu block içerisinde 3 kez max pooling yapılır ve bu sayede feature’lardaki maximum değerler(modelin odaklanmasını istediğimiz değerler) her bir pooling’de daha çok yayılır. Farklı boyutlarda maximumları içeren bu feature’lar concat modülü ile birleştirilir ve en son convolution’dan geçerek channel sayısı ilk duruma getirilir.

Bu block’un yaptığı işlemi featurelardaki asıl kısımlara odaklanma ve bu kısımları daha çok ön plana çıkarma işlemi olarak düşünebiliriz. Aynı zamanda feature’ları basitleştirme işlevi de görür.

B. Model yapısı

Yolo modeli backbone, neck ve head olmak üzere 3 farklı kısımdan oluşur. Bu 3 farklı kısım yukarıda bahsettiğim blockların birleşmesi ile oluşturulur ve her bir kısmın farklı işlevi vardır.

1. Backbone

Untitled

Backbone yapısı convolution işlemleri kullanılarak farklı boyutlar için feature extraction’ın yapıldığı kısımdır. İçerisinde 5 farklı aşama bulunur(P1, P2, P3, P4, P5).