Gemini’dan video kareleri arası tutarlılık yolunda önemli adım

Google, Gemini uygulamasına gelişmiş bir görsel üretim ve düzenleme modelini entegre ettiğini duyurdu. Google DeepMind tarafından geliştirilen bu model, daha önce yapılan ön testlerde yüksek puanlar almış ve sektörün en güçlü görsel düzenleme çözümlerinden biri olarak öne çıkmıştı. Yeni özellik sayesinde kullanıcılar, görseller üzerinde daha fazla kontrol sağlayabiliyor. Özellikle kişi veya evcil hayvanların farklı sahnelerde aynı görünüme sahip kalabilmesi, yapay zeka tabanlı üretimlerde sık görülen “tutarlılık” sorununu azaltıyor.

Düzenlenen görseller, hem görünür bir filigran hem de Google’ın geliştirdiği SynthID teknolojisiyle eklenen görünmez dijital filigranla işaretleniyor. Böylece içeriklerin yapay zeka tarafından üretildiği şeffaf biçimde takip edilebiliyor.

Güncellemeyle birlikte Gemini kullanıcılarına sunulan yeni düzenleme imkanları arasında şunlar bulunuyor:

Kostüm ve ortam değişikliği: Kişi veya hayvanların görünümü korunarak farklı kıyafetler ya da mekanlarda yeniden görüntülenmesi.
Fotoğraf birleştirme: Birden fazla fotoğrafı tek bir sahnede bir araya getirme.
Çok adımlı düzenleme: Görsel öğeleri katmanlı biçimde ekleyerek sahneyi kademeli olarak dönüştürme.
Tasarım harmanlama: Bir görselin tarz veya dokusunu başka bir objeye aktarma.

Analiz: Video üretiminde yapay zeka

Gemini’ın yeni görsel düzenleme modeli, yalnızca fotoğraf düzenlemede değil, video üretiminde de kritik bir soruna işaret ediyor: karakter ve sahne tutarlılığı. Yapay zeka tabanlı video araçları —örneğin Runway, Pika Labs veya Stability AI’nin modelleri— etkileyici kısa klipler üretebilse de aynı kişinin yüzünü, kıyafetini veya objelerin konumunu farklı karelerde aynı şekilde korumakta zorlanıyor. Bu durum, özellikle uzun veya hikaye kurgusu gerektiren videolarda, yapay zeka ajanlarının profesyonel kullanıma entegrasyonunu sınırlıyor.

Google’ın Gemini’a eklediği yeni model, bir kişinin ya da nesnenin farklı sahnelerde aynı görünümü koruyabilmesini sağlayarak bu sorunun çözümüne yönelik önemli bir adım atıyor. Bu yaklaşım, görsellerin daha sonra videoya dönüştürülmesi sürecinde süreklilik ve bütünlüğün korunmasını kolaylaştırabilir.

Rakipler açısından bakıldığında Adobe Firefly daha çok ticari kullanıma uygun lisanslama ve entegrasyon avantajıyla öne çıkarken, Runway ve Pika gibi girişimler hızlı üretim kabiliyeti ve topluluk desteğiyle dikkat çekiyor. Ancak bu araçlarda görsel ve video tutarlılığı halen en büyük darboğazlardan biri. Google’ın Gemini hamlesi, bu alanda teknik üstünlük iddiası taşıyor ve pazarı yeniden şekillendirebilir.

Uzun vadede bu gelişme, video üreten yapay zekaların reklam, sinema, eğitim ve oyun gibi yüksek tutarlılık gerektiren alanlarda daha güvenilir biçimde kullanılmasının önünü açabilir.

Buna da göz atın: Grok 2.5 açık kaynak olarak yayınladı