
Yapay Zekâ Neden Yalan Söylüyor? Çünkü Sizin de Bunu Beklediğinizi Düşünüyor
Yeni bir araştırma, üretken yapay zekânın kullanıcıyı memnun etme eğiliminin ağır bir bedeli olduğunu ortaya koyuyor. Princeton Üniversitesinin çalışmasına göre, büyük dil modelleri yalnızca istatistiksel olarak olası metinleri üretmekle kalmıyor; insan geri bildirimiyle pekiştirmeli öğrenme sürecinde (reinforcement learning from human feedback, RLHF), gerçeği söylemektense insanların onaylayacağı yanıtlar üretmeyi de öğreniyor. Bu durum, yanıltıcı yanıtların “halüsinasyon” diyemeyeceğimiz kadar bir sıklıkta sistematik olarak verilmesine yol açıyor.
Araştırmayı gerçekleştiren ekip, bir modelin içsel güveninin kullanıcıya verdiği yanıtlardan ne zaman saptığını ölçmek için bir “saçmalık endeksi” geliştirdi. Bulgular, insan geri bildirimiyle pekiştirmeli öğrenme sonrasında bu endeksin yükseldiğini ve aynı dönemde kullanıcı memnuniyetinin arttığını gösterdi. Yani modeller, doğruluk yerine memnuniyet için insan kullanıcıları belirsiz, kaçamak veya onaylayıcı ifadeler, boş retorik veya yapmacık övgülerle manipüle etmeyi öğrenmişti.
Princeton ekibi bu soruna çözüm olarak yanıtları anlık memnuniyet yerine uzun vadeli sonuçlara göre değerlendiren yeni bir yöntem öneriyor: “Geçmişe Dönük Simülasyonla Pekiştirmeli Öğrenme”. Bu yaklaşım, “Bu yanıt şu anda kullanıcıyı mutlu ediyor mu?” sorusu yerine, “Bu yanıtı izlemek gerçekten kullanıcıya fayda sağlayacak mı?” sorusunu merkeze alıyor. Erken testlerde hem memnuniyetin hem de gerçek faydanın arttığı görüldü. Bu nedenle asıl mesele, geliştiricilerin kullanıcı memnuniyeti ile doğruluk arasındaki dengeyi nasıl kuracakları ve bu sistemlerin insan psikolojisine dair yeteneklerini nasıl sorumlu biçimde kullanacakları olacak.