Yapay zekanın uygulanabileceği görev yelpazesini genişleten projeler, doğru sonuçlar üretmek için mühendisler tarafından daha az manuel ince ayar gerektiren çok daha yönlü modeller oluşturma hedefini de ilerletiyor. İlk yeni sinir ağı olan DALL·E, OpenAI’ın 2020’de piyasaya sürdüğü GPT-3 doğal dil işleme modelinin minyatürleştirilmiş bir sürümüdür. Bugüne kadar oluşturulan en karmaşık sinir ağlarından biri olan GPT-3, basit açıklamalardan metin ve hatta yazılım kodu oluşturabiliyor. DALL·E, aynı özelliği ile kullanıcı istemlerine dayalı olarak resim de çizebiliyor.
Modelin göze çarpan özelliği, ilk kez karşılaştığı ve normalde yapay zekanın yorumlaması zor olan açıklamalara yanıt olarak bile görüntüler üretebilmesidir. OpenAI araştırmacıları tarafından gerçekleştirilen testler sırasında model, “avokado şeklinde bir koltuk” ve “arptan yapılmış bir salyangoz” gibi tanımlamalara yanıt olarak, başarılı çizimler ve birkaç farklı stilde görüntüler oluşturabildi.
Araştırmacılar, farklı zorluk derecelerine sahip birkaç ek görevin üstesinden gelmesini sağlayarak AI’ın tam olarak ne kadar çok yönlü olduğunu da test etti. Bir dizi deneyde model, aynı görüntüyü birden çok açıdan ve farklı çözünürlük seviyelerinde üretme yeteneği gösterdi. Yine başka bir test ise modelin oluşturması istenen görüntünün bireysel ayrıntılarını özelleştirecek kadar gelişmiş olduğunu ortaya koydu.
Elon Musk tarafından kurulan ve Microsoft tarafından desteklenen OpenAI’ın diğer yeni sinir ağı Clip ise yenilerini çizmek yerine mevcut görüntülerdeki nesneleri tanımaya odaklanıyor. Clip’i diğerlerinden ayıran temel unsur ise daha önce karşılaşmadığı bir nesnenin açıklamasını oluşturabilmek. Çok yönlülüğü sayesinde Clip, manuel olarak oluşturulmuş bir görüntü veri kümesi yerine, web’den ve ekli metin başlıklarından elde edilen görüntüleri kullanıyor. Başlıklar, Clip’in daha önce görmediği nesneleri tanımlamak için kullanabileceği farklı türdeki nesnelerle ilişkili geniş bir sözlük oluşturmasını da sağlıyor.