Stanford araştırmacıları, veri kümesinde CSAM’nin varlığının, veriler üzerinde eğitilen yapay zeka modellerinin yeni ve hatta gerçekçi CSAM örnekleri oluşturmasına olanak sağlayabileceğini belirtiyor.
Veri setini oluşturan kar amacı gütmeyen kuruluş LAION, ilk etapta veri kümelerini yayınlamadan önce yasa dışı içeriği tespit etmek ve bunlardan kaldırmak için filtreler oluşturduğunu söyledi. Ancak 404, LAION liderlerinin en az 2021’den bu yana, internetten milyarlarca görüntüyü süpürürken sistemlerinin CSAM’i alma ihtimalinin olduğunun farkında olduğuna dikkat çekiyor.
İlginç suçlama! Yapay zeka çocuk istismarına karşı gözlem altında!
Önceki raporlara göre, söz konusu LAION-5B veri seti “milyonlarca pornografi, şiddet, çocuk çıplaklığı, ırkçı memler, nefret sembolleri, telif hakkıyla korunan sanat eserleri ve özel şirket web sitelerinden alınmış eserler” içeriyor. Genel olarak 5 milyardan fazla görsel ve ilgili açıklayıcı başlık içeriyor. LAION’un kurucusu Christoph Schuhmann, bu yılın başlarında veri setindeki herhangi bir CSAM’den haberdar olmadığını ancak verileri çok derinlemesine incelemediğini söyledi.
ABD’deki çoğu kurumun doğrulama amacıyla CSAM’i görüntülemesi yasa dışı. Bu nedenle Stanford araştırmacıları potansiyel CSAM’yi aramak için çeşitli teknikler kullandılar. Makalelerine göre, “algısal karma tabanlı algılama, kriptografik karma tabanlı algılama ve veri kümesindeki görüntü yerleştirmelerinden yararlanan en yakın komşu analizini” kullandılar. Şüpheli CSAM içeren 3.226 giriş buldular. Bu görüntülerin çoğunun CSAM olduğu PhotoDNA ve Kanada Çocuk Koruma Merkezi gibi üçüncü taraflarca doğrulandı.