چرا چت‌بات‌های هوش مصنوعی هنوز هم دچار توهم می‌شوند؟

شماره خبر: 383289
نام خبرنگار: ابوالفضل نورالدین

مقاله جدید توسط Open -ai این سؤال را ایجاد می کند که چرا مدلهای بزرگ زبان و چت های هوش مصنوعی هنوز توهم آور هستند و آیا می توان کاری برای کاهش این توهم ها انجام داد.

Openai ، در یک پست وبلاگ که مقاله جدید خود را خلاصه می کند ، توهمات را به عنوان “گزاره های احتمالی اما نادرست تولید شده توسط مدل های زبانی” تعریف می کند و اذعان می کند که با وجود پیشرفت ها ، توهمات هنوز یک چالش بزرگ است.

به گفته فناوری Crinch ، محققان Open -ai می گویند وقتی یکی از نویسندگان نویسنده ، آدام تاومان کلای ، نویسنده ، آنها سه پاسخ مختلف دریافت کردند که همه این اشتباهات بود. سپس ، آنها در مورد تاریخ تولد کالا سؤال کردند و سه تاریخ مختلف دریافت کردند که همه آنها اشتباه بودند.

چگونه می توان یک چت را اینقدر اشتباه کرد و از اشتباه آن اطمینان داد؟ محققان می گویند توهمات تا حدی ناشی از یک فرآیند قبل از آموزش است که بر مجبور کردن مدل ها برای پیش بینی کلمه بعدی بدون برچسب های درست یا نادرست مرتبط با اصطلاحات آموزشی متمرکز است.

محققان در مقاله خود نوشتند: این مدل فقط نمونه های مثبت زبان روان را می بیند و باید توزیع کلی را تقریبی کند. در مواردی که آنها از الگوهای ثابت پیروی می کنند ، خطاها با افزایش مقیاس از بین می روند ، اما حقایق فرکانس پایین مانند تولد PET فقط از الگوهای پیش بینی نمی شود و در نتیجه منجر به توهم می شود.

با این حال ، راه حل پیشنهادی برای این مقاله کمتر به فرآیند قبل از آموزش و تمرکز بیشتر بر نحوه ارزیابی مدلهای بزرگ زبان متمرکز است. استدلال این است که خود مدل های ارزیابی فعلی باعث توهم نمی شوند ، اما انگیزه های اشتباه ایجاد می کنند.

محققان این ارزیابی ها را با نوعی از تست های چند انتخابی مقایسه می کنند که در آن حدس تصادفی منطقی است زیرا ممکن است شما خوش شانس باشید و به درستی حدس بزنید. با این حال ، ترک پاسخ ، صفر را تضمین می کند.

به همین ترتیب ، محققان نوشتند: “وقتی مدل ها فقط بر اساس دقت ارزیابی می شوند ، درصد سؤالاتی که دقیقاً پاسخ می دهند ، به آنها تشویق می شوند که به جای” من نمی دانم “حدس بزنند.

راه حل پیشنهادی مشابه تست هایی مانند “SAT” است که شامل نمره منفی برای پاسخ های اشتباه یا نمره جزئی برای ترک سؤالات برای جلوگیری از حدس کور است. Openai می گوید ارزیابی های مدل باید خطاهای ایمن را نسبت به عدم اطمینان مجازات کند و برای عدم قطعیت های مناسب امتیاز جزئی ایجاد کند.

محققان استدلال می کنند که معرفی چندین آزمایش جدید عدم اطمینان کافی نیست. در عوض ، ارزیابی های مبتنی بر دقت که به طور گسترده مورد استفاده قرار می گیرند باید به روز شوند تا از امتیاز دهی آنها جلوگیری شود.

محققان نوشتند: اگر هیئت های رتبه بندی اصلی به پاداش حدس های خوش شانس ادامه دهند ، مدل ها به یادگیری یادگیری ادامه می دهند.

منبع: isna