Çalışma, araştırmacıların yapay zekanın sosyal dinamikleri anlama yeteneğini insanlarla karşılaştırarak test ettiği Uluslararası Temsil Öğrenme Konferansı’nda (ICLR) sunuldu.
Ekip basit ama etkili bir deney tasarladı. İnsan katılımcılardan, insanların birbirleriyle etkileşimde bulundukları, bitişik aktiviteleri gerçekleştirdikleri veya bağımsız olarak çalıştıkları kısa, 3 saniyelik videolar izlemeleri istendi.
Daha sonra, her klipteki sosyal etkileşimin derecesini 1’den 5’e kadar bir ölçekte derecelendirmeleri istendi.
Aynı değerlendirme daha sonra görüntü, video ve dil işleme için gelişmiş modeller de dahil olmak üzere 350’den fazla yapay zeka modeline uygulandı.
Rahatsız edici sonuçlar
İnsan katılımcılar değerlendirmelerinde büyük ölçüde hemfikirdi, ancak Teknoloji modelleri, karmaşıklıkları veya veri büyüklükleri ne olursa olsun aynı doğruluğu elde edemedi.
Video tabanlı modeller en kötü performansı göstererek dinamik sahnelerdeki sosyal etkileşimleri tanımada başarısız oldu. Statik görüntülere dayalı modeller bile insanların iletişim kurup kurmadığını doğru bir şekilde tahmin edemiyordu.
Sahnelerin yazılı açıklamaları verildiğinde dil modelleri, özellikle insanların sahneleri nasıl yorumlayacağını tahmin etmeye çalışırken, biraz daha iyi performans gösterdi.
Ancak değişen görsel manzaranın tam bağlamını yakalamak mümkün olmadı. Konferansta bulguları sunan Ishik laboratuvarındaki araştırmacı ve çalışmanın ilk yazarlarından Kathy Garcia, bunun Teknoloji sistemlerinin oluşturulma biçimindeki yapısal bir eksikliği yansıttığını söylüyor.
“Sabit görüntülerde yüzleri veya nesneleri tanıma yeteneği, yapay zekanın yolunda önemli bir başarıdır, ancak yeterli değildir” diyor.
Hayat durağan bir resim değildir. İnsanlar hareket eder, etkileşime girer ve birbirlerine yanıt verirler. Yapay zekanın ulaşmasını istediğimiz anlayış seviyesi budur. Çalışmamız henüz o noktada olmadığımızı gösteriyor.”
Sebebi nedir?
Araştırmacılar, bunun sebebinin yapay zeka sinir ağlarının inşa edildiği temelde, yani beynin durağan görüntüleri işlemekle sorumlu kısmında yattığını düşünüyor.
Ancak sosyal etkileşimler, insan beyninin tamamen farklı bir bölümü tarafından yürütülen süreçler olan hareket, bağlam ve niyet hakkında daha derin bir anlayış gerektirir.
Işık, pek çok ayrıntı olduğunu ancak genel mesajın şu olduğunu söylüyor: Test ettiğimiz yapay zeka modellerinden hiçbiri, insan beyninin tepkilerini veya insan davranışını hareketli sahnelere, durağan görüntülere olduğu kadar iyi bir şekilde yansıtamadı.
İnsanların dinamik sahneleri işleme biçiminde bu modellerin hâlâ gözden kaçırdığı temel bir şey var.
Uzun vadeli etkiler
Yapay zekanın günlük hayatımıza, ister arabalarda, ister hastanelerde, isterse kamusal alanlarda olsun girmesiyle birlikte, insan davranışını toplumsal bağlamda doğru bir şekilde anlamak giderek daha da önemli hale geliyor.
Bir yayanın hafif bir tereddütü, belli belirsiz bir vücut dili, hatta bakışmalar… Bunların hepsi insanların düşünmeden yorumladığı, ancak yapay zeka için bir gizem olarak kalan sinyaller.
Bu çalışma, bu bağlamlarda yapay zekanın kullanımının durdurulması çağrısında bulunmuyor, ancak bu sistemlerin insan beyninin düşünme biçimine daha yakın olacak şekilde nasıl eğitildiği ve tasarlandığı konusunda yeniden düşünme ihtiyacını vurguluyor.
Garcia, bunun bir uyarı çağrısı olduğunu söylüyor. “Bizi gerçekten anlayan bir yapay zeka inşa etmek istiyorsak, bu modelleri tasarlama şeklimizi temelden yeniden düşünmemiz gerekiyor” diye ekliyor.
Sonuç olarak, yapay zekanın karşı karşıya olduğu en büyük zorluklardan biri oyunlarda insanları yenmek veya şiir yazmak değil, iki insan arasındaki bir bakışı, bir hareketi veya sessiz bir anı anlamak olabilir.