Manzano Modelinin Özellikleri
Çalışma, “MANZANO: Basit ve Ölçeklenebilir Birleşik Çok Modlu Model ile Hibrit Görsel Tokenizer” başlığı altında, yaklaşık 30 Apple araştırmacısı tarafından gerçekleştirildi. Bu araştırma, hem görüntü anlayışını hem de metinden görüntü üretimini tek bir çok modlu modelde birleştiren yenilikçi bir yaklaşımı detaylandırıyor. Manzano modeli hakkında iPhone 18 Ailesinin Ekran Boyutları ve Dynamic Island Tasarımı Hakkında Detaylar Açıklandı Apple Siri Güncellemesi Yeni Özellikler ve Çıkış Tarihi
Mevcut birleşik çok modlu modeller genellikle görüntü üretimini desteklerken, ya görsel anlayışta fedakarlık yapmakta ya da üretim kalitesini önceliklendirmekte zorlanıyor. Araştırmacılara göre, bu durumun temel nedeni, görsel tokenizasyonun çelişkili doğasıdır. Otoregresif üretim genellikle ayrık görüntü token’larını tercih ederken, anlayış genellikle sürekli gömme yöntemlerinden fayda sağlıyor. Bu nedenle, birçok model, zengin ve sürekli özellikler için bir anlam kodlayıcı kullanırken, üretim için ayrı bir kuantize tokenizer (örneğin VQ-VAE) kullanmayı benimsemektedir. Bu durum, dil modelinin iki farklı görüntü token türünü işlemeye zorlamasıyla büyük bir görev çatışması yaratıyor.
Manzano'nun Yenilikçi Yaklaşımı
Manzano, anlayış ve üretim görevlerini birleştirerek, bir otoregresif dil modelinin görüntüde bulunması gerekenleri tahmin etmesini sağlıyor. Daha sonra bu tahminler, gerçek piksellerin oluşturulmasını sağlayan bir difüzyon kodlayıcısına aktarılıyor. Araştırmacılar, Manzano’nun mimarisinde üç bileşeni bir araya getirdiğini belirtiyor:
1. Sürekli ve ayrık görsel temsiller üreten hibrit bir görsel tokenizer.
2. Metin token’larını ve/veya sürekli görüntü gömme işlemlerini kabul eden bir LLM (Büyük Dil Modeli) kodlayıcı, ortak bir kelime hazinesinden bir sonraki ayrık görüntü veya metin token’larını tahmin ediyor.
3. Tahmin edilen görüntü token’larından görüntü piksellerini oluşturan bir görüntü kodlayıcı.
Bu yaklaşım sayesinde Manzano, “karşıt, fizik kurallarını ihlal eden istemleri (örneğin, ‘Kuş, filin altında uçuyor’) GPT-4o ve Nano Banana’ya benzer bir şekilde gerçekleştirebiliyor,” şeklinde ifade ediliyor.
Performans Değerlendirmeleri
Araştırmacılar, Manzano’yu 300M parametreli modelden 30B parametreli versiyonuna kadar çeşitli boyutlarda test etti. Bu, birleşik çok modlu performansın model ölçeği ile nasıl iyileştiğini değerlendirmelerine olanak tanıdı. Çalışma, Manzano’nun diğer önde gelen çok modlu modellerle karşılaştırıldığında üstün veya rekabetçi performans sergilediğini göstermektedir.
Manzano ayrıca, talimatla yönlendirilen düzenleme, stil aktarımı, inpainting/outpainting ve derinlik tahmini gibi görüntü düzenleme görevlerinde de başarılı sonuçlar elde etmektedir.
Detaylı Çalışmaya Erişim
Manzano’nun hibrit tokenizer eğitimi, difüzyon kodlayıcı tasarımı, ölçekleme deneyleri ve insan değerlendirmeleri hakkında daha fazla bilgi için tam çalışmaya ulaşmak mümkündür. Ayrıca, Apple araştırmacılarının yakın zamanda detaylandırdığı bir diğer umut verici görüntü modeli olan UniGen ile ilgili bilgilere de göz atmak mümkün.
Şu an için bu modeller Apple cihazlarında kullanıma sunulmamış olmasına rağmen, Apple’ın daha güçlü birinci taraf görüntü üretimi sonuçları için çalışmalara devam ettiği anlaşılmaktadır.
