Yapay zekânın Alan Turing’in 1950’deki testi artık bilgisayar biliminin tarihinden teorik bir soru değildir. National Academy of Sciences Bildirileri dergisinde yayımlanan yeni bir çalışma, bu fikri büyük dil modelleri bağlamında test ediyor ve bazı bu modellerin, katılımcıların onları bazen gerçek insanla karıştırmasına yol açacak kadar insansı görünebileceğini ortaya koyuyor.
Yapay zekânın insanları sohbet sırasında taklit etme yeteneğini test eden bir çalışma
Testin özgün fikri Alan Turing’e aittir: Bir makine, insanın kendisiyle konuşurken onun makineyi insanla ayırt edemeyeceği şekilde insan konuşmasını taklit edebilir mi? Buradaki yenilik, araştırmacıların yapay zekanın cevap verebilme yeteneğini sormakla yetinmemeleri, onu kısa ve doğrudan konuşmalarda insan gibi görünme kapasitesini test etmeleridir.
Üçlü Konuşma
Çalışma, ‘Turing’ testinin üçlü bir versiyonuna dayandı; katılımcı her deneyde aynı anda iki tarafla metin arayüzü üzerinden konuşuyordu. Bunlardan biri insan, diğeri yapay zeka modeliydi. Beş dakikalık konuşmanın ardından, hangi tarafın insan olduğunu belirlemesi gerekiyordu. Ayrı bir tekrar deneyinde ise bazı konuşmalar 15 dakikaya kadar uzadı.
Deneylere yaklaşık 500 kişi katıldı, iki ayrı gruptan. Bunlar, Kaliforniya Üniversitesi, San Diego öğrencileri ve ücretli araştırmalar için tasarlanmış ‘Prolific’ platformu katılımcılarıydı. Bu tasarım önemliydi çünkü yalnızca tek bir grup içinde değil, birden fazla örneklem üzerinden sonucu test etmeye çalıştı.

Daha İkna Edici Modeller
Araştırmacılar, bunlardan dört sistemi, modern modeller olarak “GPT-4.5” ve “LLaMa-3.1-405B”yi; eski karşılaştırma çizgileri olarak ise “GPT-4” ve “ELIZA”yı test ettiler. En dikkat çekici sonuç, belirli bir insan karakterini benimseme talimatı verildiğinde, “GPT-4.5″in vakaların %73’ünde insan olarak seçilmesiydi. “LLaMa-3.1-405B” ise vakaların %56’sında insan olarak seçildi ve bu oran, araştırmacıların modeli karşılaştırdıkları insanlar ile istatistiksel olarak ayırt edilemeyecek düzeyde olduğunu belirtti.
Buna karşılık, daha eski sistemlerin sonuçları çok daha zayıftı. “ELIZA”, vakaların yaklaşık %23’ünde insan olarak seçilirken, “GPT-4” için bu oran yaklaşık %21’di. Bu, başarının tüm sistemler için genel olmadığını, belirli modeller ve sohbet için hazırlanma biçimleriyle ilişkili olduğunu gösteriyor.
ile ilgili:Yapay zekâ verimliliğinizi artırır mı?


