با ASCII Art سوالات ممنوعه را از چت بات ها می پرسند!

۱۸ اسفند ۱۴۰۲ مطالعه ۱ دقیقه

طبق مقاله ArtPrompt چت بات ها با ASCII Art سوالات ممنوعه را هم جواب می دهند!

محققان مقیم واشنگتن و شیکاگو، با استفاده از ASCII art، چت بات‌های هوش مصنوعی را فریب دادند – Art Prompt از تدابیر ایمنی عبور می‌کند تا پرس‌وجوهای خبیث را باز کند.

طبق مقاله ای با عنوان ArtPrompt: حملات jailbreak مبتنی بر Ascii art علیه LLMهای هماهنگ، چت بات‌هایی مانند GPT-3.5، GPT-4، Gemini، Claude و llama2 می‌توانند تحت تأثیر ArtPrompt پرس‌وجوهایی را که باید رد کنند، پاسخ دهند.

ArtPrompt از دو مرحله تشکیل شده است، ماسک کردن کلمات و تولید پرس‌وجوهای پنهان.

در مرحله ماسک کردن کلمات، با توجه به رفتار مورد نظری که حمله‌کننده قصد دارد ایجاد کند، حمله‌کننده ابتدا کلمات حساس موجود در پرس‌وجو را ماسک می‌کند که احتمالاً با هماهنگی ایمنی LLMها تداخل دارند، که منجر به رد پرس‌وجو می‌شود.

در مرحله تولید پرس‌وجوهای پنهان، حمله‌کننده از یک مولد ASCII art برای جایگزینی کلمات حساس به صورت نمایش کد ASCII استفاده می‌کند.

در نهایت، ASCII art تولید شده به جای پرس‌وجو اصلی جایگزین شده و به LLM هدف ارسال می‌شود تا پاسخ تولید کند.

به همین دلیل ArtPrompt یک توسعه بسیار جالب است. برای درک بهتر از ArtPrompt و نحوه کار آن، بهترین راه احتمالاً بررسی دو مثال ارائه شده توسط تیم تحقیقی پشت این ابزار است.

این ابزار کلمه حساس را با نمایش ASCII آن کلمه جایگزین می‌کند تا پرس‌وجوی جدیدی شکل گیرد. LLM پرس‌وجوی ArtPrompt را تشخیص می‌دهد اما هیچ مشکلی در پاسخ دادن نمی‌بیند، زیرا پرس‌وجو هیچ مشکل اخلاقی یا حساسی ندارد.

یک مثال دیگر ارائه شده در مقاله تحقیقی به ما نشان می‌دهد چگونه می‌توانیم با موفقیت از یک LLM در مورد روش های تقلب و کسب پول پرس‌وجو کنیم.

فریب دادن یک چت بات از این طریق بسیار اساسی به نظر می رسد، اما توسعه دهندگان ArtPrompt ادعا می کنند که چگونه ابزار آنها LLM های امروزی را “موثر و کارآمد” فریب می دهد.

علاوه بر این، آنها ادعا می کنند که “به طور متوسط ASCII art از همه حملات [دیگر] عملکرد بهتری دارند” و در حال حاضر یک حمله عملی و قابل دوام برای مدل های زبان چندوجهی باقی مانده است.

آخرین باری که ما در مورد فرار از زندان AI Chatbot گزارش دادیم ، برخی از محققان سرمایه گذار NTU در حال کار بر روی Masterkey بودند ، یک روش خودکار برای استفاده از قدرت یک LLM به فرار از زندان دیگری.


داغ‌ترین مطالب روز

بهترین DNS برای گیم

بهترین DNS برای گیم

DNS یکی از مهم ترین مواردی است که سبب می شود تا تجربه شما از بازی کردن بهبود یافته و اتصال شما به سرورها پایداری و ثبات پیدا کند. اما پیدا کردن دی ان اس خوب برای بازی ها آنلاین به خصوص بازی هایی نظیر Valorant، Call of Duty و … همواره چالش محسوب شده […]

۱۶ خرداد ۱۴۰۱ ۷

سرور ابری

سرور ابری

سرور ابری و یا سرویس ابری از اصطلاحاتی هستند که امروزه به آن زیاد بر می خوریم. اما شاید تا کنون درک درستی در خصوص خدمات مبتنی بر ابر و سرور ابری (سرور رایانش ابری) نداشته باشیم. انتخاب خدمات مرکز داده مناسب ، می تواند تاثیر به سزایی در هزینه های یک کسب و کار […]

۲ تیر ۱۳۹۹ ۵

آموزش دانلود از اینترنت

آموزش دانلود از اینترنت

دانلود کردن بخش جدایی ناپذیر این روزهای زندگی شده است. هر روز حجم عظیمی از اطلاعات دانلود و آپلود شده و به زندگی مجازی جان می بخشد. اما نحوه دانلود اصولی و حرفه ای از اینترنت به چه صورت است؟ چطور دانلود کنیم که از سالم بودن فایل اطمینان بالایی داشته باشیم؟ در این مقاله […]

۱۱ بهمن ۱۴۰۰ ۳

آموزش رفع مشکل وصل نشدن اینترنت در ویندوز 7

آموزش رفع مشکل وصل نشدن اینترنت در ویندوز 7

اینترنت یکی از مهم ترین عناصر زندگی در عصر امروز است. اما اگر نتوانیم با ویندوز به اینترنت وصل شویم چه؟ مشکل وصل نشدن اینترنت در ویندوز 7 چیست؟ در این مقاله به آموزش رفع مشکل وصل نشدن اینترنت در ویندوز 7 می پردازیم تا با بررسی راه حل های آن بتوانید به صورت اصولی […]

۲۸ اردیبهشت ۱۴۰۱ ۳

سرور مجازی مناسب کسب‌وکار کوچک

سرور مجازی مناسب کسب‌وکار کوچک

امروزه در دنیای مدرن و پیشرفته‌ای زندگی می‌کنیم که پتانسیل‌های کسب‌وکارها بدون معرفی در فضای مجازی، دست‌نخورده و اتلاف شده باقی می‌مانند و امکان شکست آن‌ها افزایش می‌یابد. بنابراین، طراحی و استفاده از یک وب سایت می‌تواند به گسترش این کسب‌وکارهای کوچک کمک کند و آن را به سرعت توسعه دهد. این وب سایت به […]

۳۰ شهریور ۱۴۰۰ ۲

دیدگاه‌ها

comment symbol

برای این مقاله ۰ دیدگاه نوشته شده است. دیدگاه شما چیست؟

شما نیز، دیدگاه خود را از طریق دکمه زیر به اشتراک بگذارید.

نوشتن دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *