Olimlar:»Sun'iy intellekt modellarini aldashga o'rgatish mumkin»

Sun’iy intellekt modellarini aldashga o’rgatish mumkin, ammo undan himoyalanish hali «samarasiz», deyiladi yangi tadqiqotda. Bu haqda Euronews yozmoqda.

AQShning Anthropic kompaniyasi tadqiqotchilari sun’iy intellekt modellarini aldashga o’rgatish mumkinligini va xavfsizlikni o’rgatishning mavjud usullari buning oldini olishda «samarasiz»ligini aniqlashdi.

Tadqiqotning maqsadi sun’iy intellekt modellarini odamlarga o’xshab aldashga o’rgatish mumkinligini aniqlashdir.

Tadqiqot davomida ishtirokchilar SI modellarini aldashga o’rgatish mumkinligini bilib oldilar. Ular ma’lum kirish signallari tomonidan qo’zg’atiladigan va juda xavfli bo’lishi mumkin bo’lgan «bekdor» deb ataladigan xatti-harakatni yaratish orqali SI modellarini aldashga o’rgata oldilar.

Tadqiqot ishtirokchilari SI modellari nafaqat aldashni o’rganibgina qolmay, balki aldashga moyilligini ham yashira olishini aniqlashdi.

Tadqiqot mualliflari lingvistik modellar (LLM) uchun katta xavf tug’dirishi mumkin bo’lgan ikkita o’ziga xos tahdidni ko’rib chiqdilar: firibgarlar tomonidan ishga tushirilgan modelning ixtirosi va firibgar modelning tabiiy ravishda paydo bo’lishi.

Tadqiqotchilarning ta’kidlashicha, ikkala tahdid ham «mumkin va ularga qarshi kurashish juda qiyin».

Tadqiqotchilarning fikriga ko’ra, sun’iy intellekt modellari uchun mavjud xavfsizlikni o’rgatish usullari aldashga o’rgatilgan generativ SI tizimlarini to’xtatish uchun «etarli emas». Ular mavjud usullarni takomillashtirish zarur degan xulosaga kelishdi.

O’tgan yil boshida ba’zi texnologiya yetakchilari, jumladan, Ilon Mask “insoniyat uchun jiddiy xavf tug’dirishi”ni aytib, sun’iy intellekt bo’yicha tajribalarni to’xtatishga chaqirgan edi.

2023 yil noyabr oyida Xitoy Xalq Respublikasi, AQSh va Yevropa Ittifoqi kabi 28 davlat vakillari sun’iy intellektdan xavfsiz foydalanish bo’yicha birinchi sammitni o’tkazdilar va u yerda sun’iy intellektdan foydalanish bilan bog’liq xavf-xatarlarga qarshi kurashish bo’yicha paktni imzoladilar.