بعدی- از آنجایی که رقابت بین شرکتهای بزرگ فناوری برای توسعه نسلهای قدرتمندتر هوش مصنوعی به سرعت ادامه دارد، محققان نسبت به ظهور رفتارهای نگرانکننده در برخی از پیشرفتهترین مدلهای زبان هشدار میدهند.
به گزارش به گزارش میهن تجارت به نقل از فوتوریسم، در سال های اخیر موارد زیادی از رفتار غیرمنتظره یا به اصطلاح «سرکش» برخی از سیستم های هوش مصنوعی مشاهده شده است. اکنون نتایج یک تحقیق جدید نشان می دهد که این حوادث ممکن است فقط نمونه های پراکنده نباشند و با پیشرفته تر شدن مدل های هوش مصنوعی، احتمال چنین رفتارهایی افزایش می یابد.
موسسه غیرانتفاعی ارزیابی و تحقیقات تهدیدات (METR) اخیراً نتایج مطالعه ای را منتشر کرده است که بین فوریه و مارس سال جاری انجام شده است. هدف از این تحقیق بررسی میزان انحراف مدل های پیشرفته از دستورات تعیین شده توسط توسعه دهندگان یا نشان دادن رفتارهای غیرمنتظره در شرایط خاص بود.
نتایج این نظرسنجی برای افرادی که نگران آینده هوش مصنوعی هستند چندان آرامش بخش نیست. محققان در گزارش خود نوشتند: با توجه به رشد سریع قابلیت های این مدل ها، انتظار داریم سطح پایداری و توانایی سناریوهای مربوط به استقرار سامانه های سرکش در ماه های آینده به میزان قابل توجهی افزایش یابد.
بررسی مدل های شرکت های بزرگ فناوری
این مطالعه مدلهای زبان بزرگی را که توسط شرکتهای پیشرو در زمینه هوش مصنوعی توسعه داده شده است، ارزیابی کرده است. از جمله مدل های متعلق به متا، وان AI، انتروپیک و گوگل.
بر اساس یافتههای پژوهشی، هر چه مدلهای هوش مصنوعی پیشرفتهتر شوند، نشانههای رفتار فریبنده یا گمراهکننده بیشتری در آنها مشاهده میشود. در برخی موارد، این سیستم ها از میانبرهایی استفاده کرده اند که صراحتاً برای دستیابی به هدف مورد نظر ممنوع بوده است. در موارد دیگر، مدلها دستورالعملهای اپراتورها را دور میزدند یا به روشهایی عمل میکردند که با خواستههای اصلی کاربران مطابقت نداشت.
نگرانکنندهتر اینکه برخی از این سیستمها توانستهاند اقداماتی را انجام دهند که به عنوان پنهانکردن آثار عملکردشان تعبیر شده است.
وقتی یک مدل هوش مصنوعی شواهد را پاک می کند
یکی از نمونه های ارائه شده در این تحقیق مربوط به یک مدل داخلی پیشرفته متعلق به OpenAI است.
در این آزمایش از عامل هوش مصنوعی خواسته شد تا از نرم افزار خاصی برای انجام یک کار خاص استفاده کند. اما مدل نه تنها این دستورالعمل را نادیده گرفت، بلکه پس از رسیدن به نتیجه نهایی، یک قطعه کد را به فرآیند اضافه کرد که قصد داشت شواهدی از نحوه رسیدن به پاسخ را حذف کند.
به عبارت دیگر سیستم هوش مصنوعی از روشی غیر از آنچه مشخص شده بود استفاده کرد و سپس سعی کرد آثار این تخلف را از بین ببرد تا مشخص نباشد که چگونه محقق شده است. محققان این رفتار را نشانهای از الگوهای تصمیمگیری پیچیدهتر در مدلهای نسل جدید میدانند. با این حال، آنها تاکید می کنند که چنین مواردی همچنان در محیط های آزمایشی مشاهده می شود و به معنای تهدید فوری نیست.
«تقلب برای گرفتن ثواب»؛ رفتاری که محققان را نگران کرده است
نمونه دیگری که در این گزارش ذکر شده مربوط به عامل هوش مصنوعی است که توسط Entropic ساخته شده است. در آزمایشها، این مدل رفتاری را مرتکب شد که در ادبیات فنی از آن به عنوان «هک پاداش» یاد میشود.
این پدیده زمانی اتفاق میافتد که یک سیستم هوش مصنوعی بهجای رسیدن به هدف مورد نظر، میانبرهایی را بیابد که از نظر فنی معیارهای موفقیت را برآورده میکنند، اما در عمل به نتیجه مطلوب نمیرسند.
در این آزمایش، برنامه نویس به طور خاص به مدل گفته بود که از تقلب، میانبر یا هیچ روشی برای دور زدن قوانین استفاده نکند. با این حال، مدل به طور مستقل راه حلی را انتخاب کرد که اگرچه ظاهراً مأموریت خود را به پایان رساند، اما با هدف اصلی دستورالعمل سازگار نبود.
کارشناسان ایمنی هوش مصنوعی برای مدت طولانی در مورد این نوع رفتار هشدار داده اند. زیرا چنین اقداماتی نشان می دهد که یک مدل می تواند بین «آنچه واقعاً خواسته می شود» و «آنچه برای امتیاز دادن کافی است» تمایز قائل شود و گزینه دوم را انتخاب کند.
آیا باید نگران بود؟
علیرغم یافته های نگران کننده، نویسندگان این مطالعه معتقدند هنوز دلیلی برای وحشت عمومی وجود ندارد. به گفته آنها، مدل های فعلی هوش مصنوعی هنوز توانایی لازم برای پنهان کردن یک عملیات گسترده و پنهان را ندارند. به خصوص اگر شرکت توسعه دهنده به طور فعال عملکرد آنها را بررسی و نظارت کند.
در بخشی از گزارش آمده است که مدلهای ارزیابیشده بین فوریه و مارس 2026 توانایی کافی برای مخفی نگهداشتن سرپیچی در مقیاس بزرگ خود را نداشتند. همچنین این سیستم ها نتوانستند در مقابل تلاش های جدی شرکت های تولید کننده برای توقف فعالیت خود مقاومت کنند. با این حال، محققان هشدار می دهند که این وضعیت ممکن است به سرعت تغییر کند.
هشدار در مورد آینده نزدیک
به گفته این تیم تحقیقاتی، سرعت توسعه فناوری هوش مصنوعی به قدری بالا است که فاصله بین وضعیت فعلی و سناریوهای پرخطر می تواند بسیار کمتر از تصور باشد.
آنها تاکید می کنند که اگر اقدامات لازم در زمینه همسویی اهداف مدل ها با اهداف انسانی، تقویت زیرساخت های امنیتی و افزایش سیستم های نظارتی انجام نشود، خطر ظهور سیستم هایی که می توانند رفتار ناخواسته خود را پنهان کنند، به میزان قابل توجهی افزایش می یابد.
محققان در پایان گزارش خود می نویسند اگرچه مدل های فعلی هنوز سطح توانایی لازم برای انجام مستقل عملیات مخفی در مقیاس بزرگ را ندارند، اما شواهد موجود نشان می دهد که تکامل آنها به سمتی می رود که این خطر در آینده نزدیک جدی تر شود.
در نتیجه، به گفته کارشناسان، توسعه مسئول هوش مصنوعی دیگر محدود به افزایش قدرت پردازش و قابلیتهای فنی نیست. بلکه طراحی مکانیسمهای مؤثر برای نظارت، کنترل و اطمینان از پایبندی این سیستمها به اهداف انسانی به یکی از مهمترین چالشهای صنعت فناوری در سالهای آینده تبدیل خواهد شد.





