Google'dan metin, görsel ve videoyu birleştiren Gemini Omni

Yapay zeka ile özetle

▾

Google, üretken yapay zeka modeli ailesi Gemini için geliştirdiği yeni multimodal modelini duyurdu. “Gemini Omni” adı verilen yeni sistem, teknoloji devinin açıklamasına göre; metin, görsel, video ve ses girdilerini birlikte işleyerek video üretimi ve düzenleme yapabiliyor.

İçindekiler

Doğal dil ile video düzenleme dönemi Gemini’ın bilgi altyapısı video üretimine taşınıyor Farklı girdi türlerini tek bir videoda birleştirebiliyor Dijital avatar özelliği geliyor Şeffaflık ve güvenlik vurgusu

Şirket, Gemini Omni’nin ilk sürümü olan “Gemini Omni Flash” modelinin kademeli olarak Gemini uygulaması, Google Flow ve YouTube Shorts platformlarında kullanıma sunulacağını açıkladı. İlk aşamada video üretimine odaklanan modelin, ilerleyen dönemde görsel ve ses çıktıları da desteklemesi planlanıyor.

Doğal dil ile video düzenleme dönemi

Google’ın paylaştığı bilgilere göre Gemini Omni’nin öne çıkan özelliklerinden biri, kullanıcıların videoları doğal dil komutlarıyla düzenleyebilmesi… Kullanıcılar bir videodaki karakterleri, ortamı, aksiyonu veya görsel stili sohbet benzeri komutlarla değiştirebiliyor.

Şirket, modelin önceki düzenlemeleri “hatırlayabildiğini”, sahne tutarlılığını koruyabildiğini ve fiziksel hareketleri daha gerçekçi şekilde işleyebildiğini belirtiyor. Bu sayede aynı sahne üzerinde çok aşamalı düzenlemeler yapılabiliyor.

Google ayrıca kullanıcıların mevcut videolar üzerinde değişiklik yapabileceğini; yeni karakterler, objeler veya farklı sahne akışları ekleyebileceğini ifade ediyor.

Gemini’ın bilgi altyapısı video üretimine taşınıyor

Google’a göre Gemini Omni yalnızca gerçekçi görüntüler üretmeyi değil, aynı zamanda bağlamı anlamayı ve hikaye akışını kurgulamayı hedefliyor. Şirket, modelin fizik kuralları, tarih, bilim ve kültürel bağlam gibi alanlardaki Gemini bilgi altyapısından yararlandığını söylüyor.

Bu kapsamda modelin:

Yer çekimi, hareket ve akışkan dinamikleri gibi fiziksel süreçleri daha doğru simüle edebildiği,
Metin ve görsel arasındaki anlamsal ilişkiyi daha gelişmiş şekilde kurabildiği,
Karmaşık fikirleri kısa komutlardan açıklayıcı videolara dönüştürebildiği iddia ediliyor.

Farklı girdi türlerini tek bir videoda birleştirebiliyor

Gemini Omni; görsel, video, ses ve metin referanslarını bir araya getirerek tek bir çıktı üretebiliyor. İlk aşamada yalnızca ses referansları desteklenecek olsa da Google, ilerleyen süreçte farklı ses girdilerinin de sisteme ekleneceğini belirtiyor.

Kullanıcılar; karakter çizimleri, sahne görselleri veya mevcut videoları referans olarak kullanarak yeni içerikler oluşturabiliyor. Şirket ayrıca stil, hareket ve efekt tanımlarının hem örnek içeriklerle hem de yazılı komutlarla yapılabileceğini aktarıyor.

Dijital avatar özelliği geliyor

Google, “Avatar” adı verilen yeni özellikle kullanıcıların kendi dijital versiyonlarını oluşturabileceğini açıkladı. Bu sistem sayesinde kullanıcılar kendi sesleriyle ve görünümlerine benzeyen yapay zeka destekli videolar üretebilecek.

Şirket, ses ve konuşma düzenleme tarafında ise güvenlik ve kötüye kullanım riskleri nedeniyle çalışmaların sürdüğünü vurguluyor.

Şeffaflık ve güvenlik vurgusu

Google, Gemini Omni ile oluşturulan tüm videolarda “SynthID” isimli görünmez dijital filigran teknolojisinin kullanılacağını belirtti. Şirket, bu sistem sayesinde içeriklerin yapay zekayla üretildiğinin doğrulanabileceğini ifade ediyor.

Google ayrıca Gemini uygulaması, Chrome’daki Gemini entegrasyonu ve Google Arama üzerinden içerik doğrulama araçlarının sunulacağını açıkladı.

Şirketin blog paylaşımı, yapay zeka ile üretilen içeriklerin internet genelinde daha şeffaf biçimde işaretlenmesine yönelik çalışmaların sürdüğünü de ortaya koyuyor.

Buna da göz atın: LinkedIn “AI Slop”a karşı harekete geçti