PNAS Nexus’ta Yayımlanan Araştırma Yapay Zekâların Dikkat Dağıtıcı Unsurlar Karşısında İnsanların Gerisinde Kaldığını Ortaya Koydu

Suketu Patel liderliğinde yürütülen ve PNAS Nexus’ta yayımlanan araştırmada, ChatGPT, Claude ve Gemini gibi büyük dil modelleri Stroop Testi ile değerlendirildi. Bulgular, yapay zekâ sistemlerinin kısa görevlerde yüksek başarı gösterebilmesine rağmen dikkat dağıtıcı unsurlar arttığında ve görev süresi uzadığında performanslarının belirgin şekilde düştüğünü ortaya koydu.

Haz 11, 2026 - 18:07
PNAS Nexus’ta Yayımlanan Araştırma Yapay Zekâların Dikkat Dağıtıcı Unsurlar Karşısında İnsanların Gerisinde Kaldığını Ortaya Koydu

Yapay zekâ sistemlerinin dikkat kontrolü ve odaklanma becerilerini inceleyen yeni bir araştırma, insan beyninin yürütücü kontrol mekanizmaları ile büyük dil modellerinin bilgi işleme süreçleri arasında önemli farklılıklar bulunduğunu gösterdi. Suketu Patel liderliğinde gerçekleştirilen çalışma, bilimsel dergi PNAS Nexus’ta yayımlandı.

STROOP TESTİYLE DİKKAT KONTROLÜ ÖLÇÜLDÜ

Araştırmada psikolojide uzun yıllardır kullanılan Stroop Testi uygulandı. Testte katılımcılardan, farklı renklerde yazılan kelimelerin anlamını değil yazı rengini belirtmeleri istendi. Araştırmacılar, bu yöntemin dikkat kontrolü, öz denetim ve dikkat dağıtıcı unsurlara direnç gibi becerileri ölçtüğünü vurguladı.

Araştırma ekibi, büyük dil modellerinin de aynı görevi yerine getirip getiremeyeceğini incelemek amacıyla ChatGPT, Claude ve Gemini gibi üretken yapay zekâ sistemlerinin temelini oluşturan modelleri test etti.

KISA LİSTELERDE BAŞARILI SONUÇLAR ELDE EDİLDİ

Araştırmada kısa test dizilerinde yapay zekâ modellerinin yüksek doğruluk oranlarına ulaştığı kaydedildi. Bulgulara göre GPT-4o, beş kelimelik listelerde yüzde 91 doğruluk oranı elde etti. Claude 3.5 Sonnet modeli de kısa ve orta uzunluktaki listelerde istikrarlı performans sergiledi.

Araştırmacılar, “Kısa görevlerde modellerin talimatları doğru şekilde takip edebildiğini gözlemledik.” değerlendirmesinde bulundu.

LİSTE UZADIKÇA PERFORMANS HIZLA DÜŞTÜ

Çalışmada görev karmaşıklığı arttıkça performansın belirgin şekilde gerilediği tespit edildi. GPT-4o’nun doğruluk oranı 10 kelimelik listelerde yüzde 57’ye düşerken, 40 kelimelik listelerde yalnızca yüzde 15 olarak ölçüldü.

Claude 3.5 Sonnet modelinin ise 20 kelimeye kadar güçlü performans gösterdiği, ancak 40 kelimelik listelerde doğruluk oranının yüzde 24’e gerilediği aktarıldı. Araştırmacılar, GPT-5, Claude Opus 4.1 ve Gemini 2.5 modellerinde de benzer eğilimlerin görüldüğünü bildirdi.

“MODELLER KELİMELERİ OKUMA EĞİLİMİNİ BASTIRAMADI”

Araştırmada uyumlu ve uyumsuz renk-kelime eşleşmelerinin aynı listede yer aldığı senaryolarda sonuçların daha da kötüleştiği belirtildi. Bazı testlerde uyumsuz eşleşmelerde doğruluk oranlarının neredeyse sıfıra kadar düştüğü kaydedildi.

Araştırmacılar, “Modeller zamanla verilen ‘yazı rengini belirt’ talimatından uzaklaşarak kelimeleri okumaya yöneldi.” ifadesini kullandı. Çalışmada, yapay zekâ sistemlerinin eğitim süreçlerinde en çok pekiştirilen davranış olan metni okuma eğilimini bastırmakta zorlandığına dikkat çekildi.

İNSAN BEYNİYLE TEMEL FARKLAR ORTAYA ÇIKTI

Araştırmacılar, insanların da Stroop Testi sırasında benzer zihinsel çatışmalar yaşadığını ancak uzun ve karmaşık görevlerde yüksek doğruluk oranını koruyabildiğini belirtti.

Çalışmada, “Günümüz yapay zekâ sistemleri dil üretimi ve akıl yürütme alanlarında etkileyici başarılar gösterse de insan beynindeki dikkat yönetimi ve yürütücü kontrol mekanizmalarına benzer bir yapıya sahip değil.” değerlendirmesine yer verildi.

Araştırma sonuçları, yapay zekâların insan davranışlarını birçok alanda taklit edebilmesine rağmen dikkat dağıtıcı unsurlara direnç, odaklanmayı sürdürme ve bilişsel dayanıklılık gerektiren görevlerde hâlen önemli sınırlamalar taşıdığını ortaya koydu.

Kaynak: CUMHA - CUMHUR HABER AJANSI