1. Anasayfa
  2. Apple Gündemi

Apple’ın Yeni Modeli: Görsel Anlayış ve Görüntü Üretimini Birleştiriyor

Apple’ın Yeni Modeli: Görsel Anlayış ve Görüntü Üretimini Birleştiriyor
Görsel: Kaynak site
Apple araştırmacıları, görsel anlayış ve metinden görüntü üretimini bir araya getiren Manzano adlı çok modlu model üzerine bir çalışma yayımladı. Bu model, mevcut uygulamaların performans ve kalite açısından yaşadığı önemli sorunları azaltmayı hedefliyor.

Manzano Modelinin Özellikleri

Çalışma, “MANZANO: Basit ve Ölçeklenebilir Birleşik Çok Modlu Model ile Hibrit Görsel Tokenizer” başlığı altında, yaklaşık 30 Apple araştırmacısı tarafından gerçekleştirildi. Bu araştırma, hem görüntü anlayışını hem de metinden görüntü üretimini tek bir çok modlu modelde birleştiren yenilikçi bir yaklaşımı detaylandırıyor. Manzano modeli hakkında iPhone 18 Ailesinin Ekran Boyutları ve Dynamic Island Tasarımı Hakkında Detaylar Açıklandı Apple Siri Güncellemesi Yeni Özellikler ve Çıkış Tarihi

Mevcut birleşik çok modlu modeller genellikle görüntü üretimini desteklerken, ya görsel anlayışta fedakarlık yapmakta ya da üretim kalitesini önceliklendirmekte zorlanıyor. Araştırmacılara göre, bu durumun temel nedeni, görsel tokenizasyonun çelişkili doğasıdır. Otoregresif üretim genellikle ayrık görüntü token’larını tercih ederken, anlayış genellikle sürekli gömme yöntemlerinden fayda sağlıyor. Bu nedenle, birçok model, zengin ve sürekli özellikler için bir anlam kodlayıcı kullanırken, üretim için ayrı bir kuantize tokenizer (örneğin VQ-VAE) kullanmayı benimsemektedir. Bu durum, dil modelinin iki farklı görüntü token türünü işlemeye zorlamasıyla büyük bir görev çatışması yaratıyor.

Manzano'nun Yenilikçi Yaklaşımı

Manzano, anlayış ve üretim görevlerini birleştirerek, bir otoregresif dil modelinin görüntüde bulunması gerekenleri tahmin etmesini sağlıyor. Daha sonra bu tahminler, gerçek piksellerin oluşturulmasını sağlayan bir difüzyon kodlayıcısına aktarılıyor. Araştırmacılar, Manzano’nun mimarisinde üç bileşeni bir araya getirdiğini belirtiyor:

1. Sürekli ve ayrık görsel temsiller üreten hibrit bir görsel tokenizer.

2. Metin token’larını ve/veya sürekli görüntü gömme işlemlerini kabul eden bir LLM (Büyük Dil Modeli) kodlayıcı, ortak bir kelime hazinesinden bir sonraki ayrık görüntü veya metin token’larını tahmin ediyor.

3. Tahmin edilen görüntü token’larından görüntü piksellerini oluşturan bir görüntü kodlayıcı.

Bu yaklaşım sayesinde Manzano, “karşıt, fizik kurallarını ihlal eden istemleri (örneğin, ‘Kuş, filin altında uçuyor’) GPT-4o ve Nano Banana’ya benzer bir şekilde gerçekleştirebiliyor,” şeklinde ifade ediliyor.

Performans Değerlendirmeleri

Araştırmacılar, Manzano’yu 300M parametreli modelden 30B parametreli versiyonuna kadar çeşitli boyutlarda test etti. Bu, birleşik çok modlu performansın model ölçeği ile nasıl iyileştiğini değerlendirmelerine olanak tanıdı. Çalışma, Manzano’nun diğer önde gelen çok modlu modellerle karşılaştırıldığında üstün veya rekabetçi performans sergilediğini göstermektedir.

Manzano ayrıca, talimatla yönlendirilen düzenleme, stil aktarımı, inpainting/outpainting ve derinlik tahmini gibi görüntü düzenleme görevlerinde de başarılı sonuçlar elde etmektedir.

Detaylı Çalışmaya Erişim

Manzano’nun hibrit tokenizer eğitimi, difüzyon kodlayıcı tasarımı, ölçekleme deneyleri ve insan değerlendirmeleri hakkında daha fazla bilgi için tam çalışmaya ulaşmak mümkündür. Ayrıca, Apple araştırmacılarının yakın zamanda detaylandırdığı bir diğer umut verici görüntü modeli olan UniGen ile ilgili bilgilere de göz atmak mümkün.

Şu an için bu modeller Apple cihazlarında kullanıma sunulmamış olmasına rağmen, Apple’ın daha güçlü birinci taraf görüntü üretimi sonuçları için çalışmalara devam ettiği anlaşılmaktadır.

Apple ürünleri ve yazılım güncellemeleri üzerine çalışan bir teknoloji yazarıdır. AppleHaber’de macOS, iOS ve Apple servislerine dair haber ve rehber içerikler üretmektedir.

Yazarın Profili
Paylaş

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir