Sizce yapay zeka okuduğunu ne kadar anlıyor? AI okuduğunu anlama konusunda düşündüğümüzden daha az performans sergiliyor olabilir.
Yakın zamana kadar, bilgisayarlar aslında anlamlı olan cümleler üretme konusunda umutsuzdu. Ancak doğal dil işleme (NLP) alanı büyük adımlar attı ve makineler artık bir düğmeye basarak ikna edici paragraflar ve metinler üretebiliyor. Bu ilerlemeler, kelime kullanımı ve argüman yapısındaki istatistiksel kalıpları geniş metinlerden seçen derin öğrenme teknikleri tarafından yönlendirildi. Ancak Allen Yapay Zeka Enstitüsü’nden yeni bir makale, hâlâ eksik olan bir şeye dikkat çekiyor: Makineler ne yazdıklarını ya da ne okuduklarını gerçekten anlamıyorlar.
Araştırmacılar, NLP sistemlerinin sağduyulu akıl yürütmesini değerlendirmek için 2011 yılında oluşturulan bir test olan Winograd Şema Mücadelesi’nin çalışmalarını geliştirdiler. Bu çalışma, tek bir kelime dışında özdeş olan bir çift cümle içeren 273 sorudan oluşan bir set kullanıyordu. Tetikleyici olarak bilinen kelime, aşağıdaki örnekte görüldüğü gibi her cümlenin zamirinin anlamını tersine çevirir:
Kupa kahverengi valize uymuyor çünkü çok büyük.
Kupa kahverengi bavullara uymuyor çünkü çok küçük.
Başarılı olmak için, bir NLP sistemi zamirin iki seçenekten hangisine başvurduğunu bulmalıdır. Bu durumda, sorunu doğru bir şekilde çözmek için birincisi için “kupa” ve ikincisi için “bavul” seçilmesi gerekir.
Test başlangıçta bu tür sorunların anlambilimi daha derin bir şekilde kavramadan cevaplanamayacağı düşüncesiyle tasarlandı. Son teknoloji ürünü derin öğrenme modelleri artık yaklaşık yüzde 90 doğruluğa ulaşabilir, bu yüzden NLP hedefine yaklaşmış gibi görünüyor.
Aynı türden 44 bin problemle WinoGrande olarak adlandırılan çok daha büyük bir veri kümesi oluşturdular. Bunu yapmak için, yeni cümle çiftlerini hızlı bir şekilde oluşturmak ve doğrulamak için bir kitle kaynak planı tasarladılar. Amazon çalışanları, bir randomizasyon prosedürüyle seçilen gerekli kelimelerle yeni cümleler oluşturdu. Daha sonra her bir cümle çifti üç ek çalışana verildi ve yalnızca üç kriteri karşıladığında tutuldu: En az iki çalışan doğru cevapları seçti, üçü de seçenekleri açık olarak gördü ve zamir referansları basit kelime ilişkilendirmeleriyle çıkarılamadı.
Son bir adım olarak, araştırmacılar veri kümesini mümkün olduğunca çok sayıda “artefaktın” ortadan kaldırılması için bir algoritma aracılığıyla çalıştırdılar – bir dil modelinin yanlış nedenlerle doğru cevaplara ulaşmasına yardımcı olabilecek kasıtsız veri modelleri veya korelasyonlar. Bu, bir modelin veri kümesini oynamayı öğrenme şansını azalttı.
En yeni modelleri bu yeni problemler üzerinde test ettiklerinde, performans yüzde 59.4 ile yüzde 79.1 arasında düştü. Buna karşın, insanlar hala yüzde 94 doğruluğa ulaştı. Bu, orijinal Winograd testinde yüksek bir puanın muhtemelen şişirildiği anlamına geliyor. Washington Üniversitesi’nde doçent ve AI2’de araştırmaya liderlik eden üst düzey araştırma yöneticisi Yejin Choi, “Bu sadece veri setine özgü bir başarı, genel görev başarısı değil” diyor.
Choi, veri kümesinin yeni bir ölçüt görevi görmesini umuyor. Ama aynı zamanda derin öğrenmenin ötesine bakmaya daha fazla araştırmacıya ilham vereceğini umuyor. Sonuçlar, gerçek sağduyu NLP sistemlerinin yapılandırılmış bilgi modelleri gibi diğer teknikleri de içermesi gerektiğini vurguladı.