Yolo modeli içerisinde farklı blocklar bulunmaktadır. Bu blockların her birinin bir işlevi vardır.

Bu blockun amacı gelen görüntünün spatial(width ve height) boyutlarını yarıya düşürmektir(bunu convolution’ın stride’ının 2 olması sayesinde gerçekleştirir). Bu block genellikle channel sayısını 2 katına çıkaracak şekilde tasarlanmıştır. Bu block sayesinde convolution kullanılarak görüntülerin boyutu küçültülür ve feature extraction yapılır.

Bu block spatial boyutlara karışmazken(convolution stride’ı 1) channel sayısında değişiklik yapar. Genelde channel sayısını yarıya düşürecek şekilde çalışır.

Bu block için yolo’nun genel blocku denebilir. Bu block içerisinde bottleneck ve residual yapıları ile birlikte feature’ların çıkarılması ve anlamlandırılması işlevi görür. Bu block içerisinde bir convolution ile channel sayısı düşürülüp bottleneck blockundan geçirilir. Bottleneck blocku computational olarak daha düşük olup feature extraction sağlar. Daha sonrasında ilk baştaki input residual olarak bu bottleneckten çıkan feature ile birleştirilir ve convolution’dan geçirilip channel sayısı ilk duruma(bazı durumlarda output channel sayısı farklı olabilir) getirilir.

Bu block spatial anlamda pooling işlemi gerçekleştirerek farklı boyutlardaki spatial maximumları çıkarır ve bunları birleştirerek ilerletir. Bu block içerisinde 3 kez max pooling yapılır ve bu sayede feature’lardaki maximum değerler(modelin odaklanmasını istediğimiz değerler) her bir pooling’de daha çok yayılır. Farklı boyutlarda maximumları içeren bu feature’lar concat modülü ile birleştirilir ve en son convolution’dan geçerek channel sayısı ilk duruma getirilir.
Bu block’un yaptığı işlemi featurelardaki asıl kısımlara odaklanma ve bu kısımları daha çok ön plana çıkarma işlemi olarak düşünebiliriz. Aynı zamanda feature’ları basitleştirme işlevi de görür.
Yolo modeli backbone, neck ve head olmak üzere 3 farklı kısımdan oluşur. Bu 3 farklı kısım yukarıda bahsettiğim blockların birleşmesi ile oluşturulur ve her bir kısmın farklı işlevi vardır.


Backbone yapısı convolution işlemleri kullanılarak farklı boyutlar için feature extraction’ın yapıldığı kısımdır. İçerisinde 5 farklı aşama bulunur(P1, P2, P3, P4, P5).