Google’dan Heyecan Verici Yenilik: Lumiere ile Video Deneyiminde Çığır Açan Yapay Zekâ Detayları

Geçtiğimiz salı günü Google, ‘uzay-zaman dağıtım modeli’ olarak adlandırdığı bir yapay zekâ video üreticisi olan Lumiere’i tanıttı. Ancak, gerçek video üretimi konusunda daha fazla beklentiye girmemiz gerekiyor. Lumiere, paten kayan veya piyano çalan sevimli hayvanların gülünç senaryolarını başarıyla oluşturabilir, ancak şu ana kadar görülen en gelişmiş yapay zekâ video oluşturucusu olabilir.

Kaynak: https://arstechnica.com/information-t…

Lumiere, Uzay-Zaman U-Net adı verilen özel bir yapı kullanarak videonun tüm süresini kesintisiz tek bir işlemde oluşturuyor.

Google’a göre Lumiere, videonun tüm zaman çizelgesini modelden tek bir geçişte oluşturuyor. Bu, Lumiere’i önce uzak ana kareler oluşturan, ardından zamansal süper çözünürlük uygulayan diğer video modellerinden ayırıyor; bu yöntem doğası gereği küresel zamansal tutarlılığı korumayı zorlaştırıyor.

Google’ın teknolojisi, videodaki nesnelerin konumunu ve hareketini aynı anda ele almak için özel olarak tasarlanmıştır.

Daha basit bir ifadeyle, Google’ın teknolojisi hem alan (videoda nesnelerin nerede olduğu) hem de zaman (video boyunca nesnelerin nasıl hareket ettiği ve değiştiği) yönlerini aynı anda ele almak üzere tasarlanmıştır. Yani, birçok küçük parçaları bir videoya eklemek yerine baştan sona tüm videoyu tek bir sorunsuz işlemde oluşturabilir.

İşte size yapay zekâ video üreticisi olan Lumiere.

Lumiere, Google’ın demo sayfasında sergilenen çeşitli numaralar yapabiliyor.

Yazılı komutları videoya dönüştürebilir, görüntüleri videolara çevirebilir, referans görüntüleri kullanarak stilize edilmiş videolar oluşturabilir, metin komutlarına göre videoları düzenleyebilir, belirli görüntü bölgelerini canlandırarak sinemagraflar oluşturabilir ve videolardaki kıyafet stillerini değiştirebilir.

Lumiere 1024×1024 piksel boyutlarında beş saniyelik videolar üretebiliyor.

Lumiere araştırma makalesine göre, Google araştırmacıları, AI modelinin 1024×1024 piksel boyutlarında beş saniyelik videolar ürettiğini belirtiyor ve bunu ‘düşük çözünürlüklü’ olarak tanımlıyor. Bu sınırlamalara rağmen, araştırmacılar tarafından gerçekleştirilen bir kullanıcı çalışması, Lumiere’in çıktılarının mevcut AI video sentezi modellerine göre tercih edildiğini iddia ediyor. 

Google, Lumiere modelini eğitmek için kullanılan veri setini şu şekilde tanımlıyor: ’30 milyon video içeren bir veri setinde eğitiyoruz. Videolar 80 kare uzunluğunda, saniyede 16 kare (5 saniye). Temel model, 128×128 piksel boyutlarında eğitilmiştir.’

Yapay zekâ tarafından üretilen video hala ilkel bir durumda, ancak son iki yılda kalite açısından ilerleme kaydediyor.

Ekim 2022’de Google’ın kamuya açıkladığı ilk görüntü sentezleme modeli olan Imagen Video’yu ele almıştık. Yazılı bir komuttan saniyede 24 kare hızında kısa 1280×768 video klipler oluşturabiliyordu, ancak sonuçlar her zaman tutarlı değildi. Bundan önce Meta, yapay zekalı video oluşturucusu Make-A-Video’yu piyasaya sürdü.  Geçtiğimiz yılın haziran ayında Runway’in Gen2 video sentezleme modeli, metin yönlendirmelerinden iki saniyelik video klipler oluşturulmasına olanak tanıyarak gerçeküstü parodi reklamların yaratılmasını teşvik etti.  Kasım ayında ise hareketsiz görüntülerden kısa klipler oluşturabilen Sabit Video Dağıtımını ele almıştık.

Yapay zekâ şirketleri içeriklerini genellikle sevimli hayvanlarla sergilemesinin nedeni nedir?

Bütün Yapay zekâ şirketleri içeriklerini genellikle sevimli hayvanlarla sergiler çünkü ahenkli ve biçimini bozmadan insan üretmek oldukça zordur, özellikle de biz insanlar, insan vücudundaki ya da hareket etme biçimindeki kusurları fark etmekte maharetliysek.

Lumiere, diğer yapay zekâ video üretim modellerini geride bırakmayı başarıyor gibi görünüyor.

Google’ın örneklerinde yola çıkarak Lumiere, bu diğer yapay zekâ video oluşturma modellerini geride bırakıyor gibi görünüyor ancak Google yapay zekâ araştırma modellerini gizli tutma eğiliminde olduğundan, halkın bunu kendi başına deneme şansına ne zaman sahip olabileceğinden emin değiliz.

Metinle video üretim modellerinin yükselişi ve gelecekte beklenen etkileri.

Her zaman olduğu gibi, metinden video sentezleme modellerinin daha yetenekli hale geldiğini gördüğümüzde, medya eserlerini paylaşmaya odaklı internet bağlantılı toplumumuz ve genellikle ‘gerçekçi’ videoların bir kamera tarafından çekilen gerçek durumları temsil ettiği genel varsayımıyla ilgili gelecekteki etkileri düşünmeden edemiyoruz. Gelecekte Lumiere’den daha yetenekli video sentez araçları, aldatıcı deepfake’lerin yaratılmasını çok daha kolay hale getirecek.

Lumiere teknolojisinin geliştiricileri, kötüye kullanımı tespit etmek için araçlar geliştiriyorlar.

Bu amaç doğrultusunda, Lumiere makalesinin ‘Toplumsal Etki’ bölümünde araştırmacılar şöyle yazıyor: Bu çalışmadaki asıl amacımız, acemi kullanıcılarımıza daha yaratıcı ve kolay bir şekilde görsel içerik üretmelerini sağlamaktır. Teknolojimizin kötüye kullanım potansiyeli, zararlı ve sahte içeriklerin üretilmesi gibi riskler içermektedir ve güvenli ve adil bir kullanım sağlamak için önyargıları ve kötü niyetli kullanım durumlarını tespit etmeye yönelik araçlar geliştirmenin ve uygulamanın çok önemli olduğuna inanıyoruz.’

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir