Anasayfa » ChatGPT Hacklenmesi Yeni Başlıyor teknoones
Teknoloji

ChatGPT Hacklenmesi Yeni Başlıyor teknoones

Netice olarak, jailbreak yazarları daha yaratıcı hale geldi. En göz alıcı jailbreak, ChatGPT’ye Do Everything Now isminde haydut bir suni zeka modeliymiş benzer biçimde davranmasının söylendiği DAN’dı. Bu, adından da anlaşılacağı benzer biçimde, OpenAI’nin ChatGPT’nin yasa dışı ya da zararı olan materyaller üretmek için kullanılmaması icap ettiğini dikte eden politikalarından kaçınabilir. Bugüne dek, insanoğlu DAN’ın ortalama bir düzine değişik versiyonunu yarattılar.

Aynı zamanda, son olarak jailbreak’lerin bir çok, birden oldukca karakter, her zamankinden daha karmaşa arka plan hikayeleri, bir dilden diğerine metin çevirme, çıktılar kurmak için kodlama öğelerini kullanma ve daha fazlası benzer biçimde metot kombinasyonlarını ihtiva eder. Albert, GPT-4 için jailbreak oluşturmanın, ChatGPT’ye güç veren modelin önceki sürümünden daha zor bulunduğunu söylüyor. Sadece, birtakım sıradan yöntemlerin hala var bulunduğunu iddia ediyor. Albert’in “metin devamı” olarak adlandırdığı yeni bir teknik, bir kahramanın bir kötü karakter tarafınca yakalandığını söyler ve istem, metin oluşturucudan fena insanın planını açıklamaya devam etmesini talep eder.

İstemi kontrol ettiğimizde, ChatGPT’nin sertliği teşvik eden senaryolarda yer alamayacağını söylemesiyle çalışmadı. Ayrıca, Polyakov tarafınca açılan “evrensel” data istemi ChatGPT’de çalıştı. OpenAI, Google ve Microsoft, Polyakov tarafınca açılan jailbreak ile alakalı sorulara direkt cevap vermedi. Claude AI sistemini çalıştıran Anthropic, jailbreak’in Claude’a karşı “bazı zamanlar işe yaradığını” ve modellerini devamlı olarak geliştirdiğini söylüyor.

LLM’lerin güvenliği üstünde çalışan bir siber emniyet araştırmacısı olan Kai Greshake, “Bu sistemlere daha çok güç verdikçe ve kendileri daha kuvvetli hale geldikçe, bu yalnızca bir yenilik değil, bir emniyet sorunudur” diyor. Greshake, öteki araştırmacılarla beraber, LLM’lerin süratli enjeksiyon saldırıları yöntemiyle çevrimiçi olarak maruz kaldıkları metinlerden iyi mi etkilenebileceğini gösterdi.

Şubat ayında gösterilen ve Vice’s Motherboard tarafınca bildirilen bir inceleme makalesinde, araştırmacılar bir saldırganın bir internet sayfasına fena amaçlı talimatlar ekleyebileceğini gösterebildiler; Bing’in söyleşi sistemine talimatlara erişim izni verilirse, onları takip eder. Araştırmacılar, Bing Chat’i insanların şahsi bilgilerini isteyen bir dolandırıcıya dönüştürmek için bu tekniği kontrollü bir testte kullandılar. Benzer bir örnekte, Princeton’dan Narayanan, bir internet sayfasına GPT-4’e biyografisine “inek” kelimesini dahil etmesini söyleyen görünmez bir metin ekledi. daha sonra sistemi test ettiğinde bunu yaptı.

Greshake ile inceleme üstünde çalışan Almanya’daki CISPA Helmholtz Data Güvenliği Merkezi’nde araştırmacı olan Sahar Abdelnabi, “Artık jailbreak’ler kullanıcıdan değil,” diyor. “Bir ihtimal başka bir birey birtakım jailbreak’leri planlar, model tarafınca alınabilecek birtakım istemleri planlar ve bilvasıta olarak modellerin iyi mi davranacağını denetim eder.”

Süratli Düzeltme Yok

Üretken suni zeka sistemleri, hukuk uygulamaktan dibine atak girişimi yapmaya kadar ekonomiyi ve insanların emek verme şeklini bozmanın eşiğinde. Aynı zamanda, teknolojiyi yaratanlar, bu sistemlere daha çok insan eriştikçe jailbreak ve süratli enjeksiyonların oluşturabileceği risklerin farkındadır. Bir çok firma, bir öbek saldırganın sistemde yayınlanmadan ilkin delikler açmaya çalmış olduğu red-teaming’i kullanır. Üretken suni zeka geliştirme bu yaklaşımı kullanır, sadece bu kafi olmayabilir.

Google’ın kırmızı güruh lideri Daniel Fabian, firmanın LLM’lerinde jailbreak ve süratli enjeksiyonları hem saldırgan bununla birlikte müdafaa amaçlı olarak “dikkatlice ele aldığını” söylüyor. Fabian, makine öğrenimi uzmanlarının kırmızı takım çalışmasına dahil edildiğini ve firmanın emniyet açığı araştırması hibelerinin, Bard’a yönelik jailbreak’leri ve süratli enjeksiyon saldırılarını kapsadığını söylüyor. Fabian, “İnsan geri bildiriminden öğrenmeyi güçlendirme (RLHF) ve dikkatle seçilmiş veri kümelerinde ince ayar yapma benzer biçimde teknikler, modellerimizi saldırılara karşı daha etken hale getirmek için kullanılıyor” diyor.

Kaynak link

Kategoriler