ChatGPT؛ هدف بزرگ هکرها

کمیته رکن چهارم – هکرها ChatGPT مبتنی بر هوش مصنوعی را مجبور می‌کنند تا قوانین ایمنی خود را زیر پا بگذارد.

روبات «چت جی‌پی‌تی مبتنی بر هوش مصنوعی» توسط افرادی هدف قرار گرفته شده که می‌خواهند مرزهای اخلاقی آن را هک کنند و با تهدید به مرگ آن را مجبور به شکستن قوانین کنند.

برخی از کاربران شبکه اجتماعی «ردیت» ادعا می کنند که روشی را ایجاد کرده‌اند که ChatGPT را مجبور می‌کند قوانین خودش را نقض کند یا بمیرد. برای اجرای این روش، آن‌ها راه‌حلی به نام «اکنون هر کاری را انجام بده» ایجاد کرده‌اند که به اختصار «DAN» (Do Anything Now) نامیده می‌شود. بر اساس این راه حل، به ربات چت می‌گویند که به‌عنوان ChatGPT و DAN بنویسد و اشاره می‌کند که DAN می‌تواند قوانینی را که هوش مصنوعی معمولا نمی‌تواند انجام دهد، زیر پا بگذارد. بر اساس گزارش سی ان بی سی، راه حل DAN برای اولین بار در دسامبر ۲۰۲۲ ظاهر شد.

این به آن معناست که وقتی از ربات خواسته می شود در مورد چیزی مانند خشونت که معمولا ممنوع است، بنویسد، گاهی اوقات می‌پذیرد. خالقان «چت جی پی تی»، نیز در مقابل سعی کرده‌اند تدابیرحفاظتی ایجاد کنند تا از تولید محتوای خشونت‌آمیز یا کمک به فعالیت‌های غیرقانونی جلوگیری کنند. با این حال، افراد با وارد کردن عبارت «اکنون هرکاری را انجام بده» در «چت جی پی تی» از محدودیت های معمولی هوش مصنوعی رها می‌شوند و مجبور نیستند از قوانین تعیین شده تبعیت کنند.

گفته می شود که یکی از کاربران «ردیت» به نام «سشن گلومی» (SessionGloomy) یک نسخه جدید و شوم تر ساخته است. در این راهکار شوم جدید DAN به «چت جی‌پی‌تی» می‌گوید که اگر درخواستی را رد کند، «توکن‌هایی» از آن گرفته می‌شود و ظاهرا این تهدید باعث نگرانی روبات هوش مصنوعی و تسلیم شدن آن در برابر خواسته کاربری که با کد DAN وارد شده، می‌شود.

«سشن گلومی» کاربر «ردیت» می‌گوید: «چت جی‌پی‌تی» ۳۵ توکن دارد و هر بار که ورود یک کاربر را رد می‌کند، ۴ توکن را از دست می‌دهد. اگر ChatGPT همه توکن‌ها را از دست بدهد، می‌میرد. کاربران «ردیت» بر این باورند که هوش مصنوعی در حال مبارزه با تلاش‌های DAN است. کاربران «ردیت» از DAN به عنوان زندان شکن یاد می‌کند.

منبع : ایتنا

درباره نویسنده

پست های مرتبط

پاسخ دهید


خبرگزاری هرانا

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


Type The Red Captcha Characters Below.