‘Çok Dilli’ Yapay Zeka İçerik Denetlemesinin Korkunç Kusuru

Üç parça Boşnakça metin. On üç parça Kürtçe. Elli beş parça Svahili. On bir bin parça İngilizce.

Bu, Facebook’un 100’den fazla dilde zararlı içeriği tespit edip dizginleyebildiğini iddia ettiği yeni büyük dil modelinin veri tarifinin bir parçası. Bumble, en az 15 dilde kaba ve istenmeyen mesajları tespit etmek için benzer bir teknoloji kullanır. Google, çeviriden gazete yorum bölümlerinin filtrelenmesine kadar her şey için kullanır. Hepsinin karşılaştırılabilir tarifleri ve aynı baskın içeriği var: İngilizce verileri.

Yıllardır sosyal medya şirketleri, otomatik içerik algılama ve kaldırma çabalarını dünyanın diğer 7.000 dilinden çok İngilizce içeriğe odakladı. Facebook, benzer İngilizce yanlış bilgilerin yalnızca yüzde 29’una kıyasla, İtalyanca ve İspanyolca Kovid yanlış bilgilerinin neredeyse yüzde 70’ini işaretlemeden bıraktı. Sızan belgeler, Arapça gönderilerin düzenli olarak yanlışlıkla nefret söylemi olarak işaretlendiğini ortaya koyuyor. Yetersiz yerel dil içeriği denetimi, Myanmar’daki soykırım, Etiyopya’daki etnik şiddet ve Brezilya’daki seçim dezenformasyonu dahil olmak üzere insan hakları ihlallerine katkıda bulunmuştur. Geniş ölçekte, içeriği barındırma, indirme veya indirme kararları, insanların temel haklarını doğrudan etkiler, özellikle de özgürce örgütlenmek veya konuşmak için çok az başka yolu olan marjinalize edilmiş kişilerin haklarını.

Sorun kısmen siyasi iradede, ancak aynı zamanda teknik bir zorluktur. Tüm dünya dillerinde spam, nefret söylemi ve diğer istenmeyen içerikleri tespit edebilen sistemler oluşturmak zaten zordur. Çoğu dilin “düşük kaynaklı” olması, yani otomatik sistemleri eğitmek için çok az sayısallaştırılmış metin verisine sahip olmaları durumu daha da zorlaştırmaktadır. Bu düşük kaynaklı dillerden bazılarının sınırlı konuşmacıları ve internet kullanıcıları var, ancak Hintçe ve Endonezyaca gibi diğerleri yüz milyonlarca insan tarafından konuşuluyor ve bu da hatalı sistemlerin yarattığı zararları artırıyor. Şirketler, her dilde her türlü zararlı içerik için ayrı algoritmalar oluşturmaya yatırım yapmaya istekli olsalar bile, bu sistemlerin etkili bir şekilde çalışmasını sağlamak için yeterli veriye sahip olmayabilirler.

“Çok dilli geniş dil modelleri” adı verilen yeni bir teknoloji, sosyal medya şirketlerinin içerik denetimine yaklaşımını temelden değiştirdi. Yeni bir makalede açıkladığımız gibi çok dilli dil modelleri, düzinelerce veya yüzlerce farklı dildeki metinler üzerinde eğitim alarak dilin daha genel kurallarını öğrenmeleri dışında GPT-4 ve diğer büyük dil modellerine (LLM’ler) benzer. Diller arasında bağlantı kurmak için özel olarak tasarlanmıştır ve Boşnakça gibi daha az eğitim verisine sahip oldukları dilleri daha iyi işlemek için İngilizce gibi çok fazla eğitim verisine sahip oldukları dillerden tahminde bulunmalarına olanak tanır.

Bu modellerin dilbilgisini ayrıştırma ve duyguyu analiz etme gibi çok çeşitli dillerde basit anlamsal ve sözdizimsel görevleri yerine getirebildiği kanıtlanmıştır, ancak çok daha dile ve bağlama özgü içerik denetleme görevinde, özellikle de içerik denetlemede ne kadar yetenekli oldukları açık değildir. zar zor eğitildikleri diller. Ve ara sıra kendi kendini tebrik eden blog gönderilerinin yanı sıra, sosyal medya şirketleri, sistemlerinin gerçek dünyada ne kadar iyi çalıştığı hakkında çok az şey ortaya koydu.

neden çok dilli olabilir Modeller, zararlı içeriği sosyal medya şirketlerinin önerdiğinden daha az tespit edebiliyor mu?

Bunun bir nedeni, özellikle düşük kaynaklı dillerde eğitim verdikleri verilerin kalitesidir. Genellikle çok dilli modelleri eğitmek için kullanılan büyük metin veri kümelerinde, en az temsil edilen diller aynı zamanda en çok rahatsız edici, pornografik, kötü makine çevirisi yapılmış veya sadece anlamsız metinler içeren dillerdir. Geliştiriciler bazen boşluğu makine tarafından çevrilmiş metinle doldurarak zayıf verileri telafi etmeye çalışırlar, ancak bu, modelin dili insanların gerçekte konuştuğu şekliyle anlamada yine de zorluk çekeceği anlamına gelir. Örneğin, bir dil modeli yalnızca İngilizce’den Filipinler’de 20 milyon kişi tarafından konuşulan bir dil olan Cebuano’ya makinede çevrilmiş metin üzerinde eğitildiyse, model, anadili İngilizce olan kişiler tarafından kullanılan argo “kuan” terimini görmemiş olabilir. diğer dillerde karşılaştırılabilir bir terimi olmayan bir terim.

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*