اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

اختلاف نتایج بررسی مدل هوش مصنوعی OpenAI / سوالاتی درباره شفافیت این شرکت

تفاوت بین نتایج معیار اول و سوم برای مدل O3 OpenAI سؤالاتی در مورد شفافیت و روش های آزمایش شرکت ایجاد کرده است.

تفاوت های بنچمارک بین شخص اول و سوم برای مدل هوش مصنوعی O3 O3 سؤالاتی در مورد شفافیت و روشهای تست شرکت ایجاد کرده است. هنگامی که OpenAI مدل O3 را در دسامبر سال گذشته معرفی کرد ، این شرکت ادعا کرد که این مدل می تواند به بیش از یک چهارم از سؤالات موجود در سری Frontiermath پاسخ دهد. این عملکرد مدل را بهتر از رقبا نشان می دهد ، با بهترین مدل رقیب فقط حدود 2 ٪ از سؤالات Frontiermath به درستی پاسخ داده است. مارک چن ، رئیس بخش تحقیقات OpenAI گفت: “امروز ، تمام پیشنهادات موجود کمتر از 2 درصد در Frontiermath است.” ما [درون سازمان] “با O3 تحت محاسبات شدید ، ما قادر به دستیابی به بیش از 25 ٪ هستیم.”

ادعای Openai و واقعیت

با این حال ، به نظر می رسد که این تعداد حد بالایی است که مربوط به نسخه O3 با قدرت محاسباتی بیشتر از مدل OpenAI است که به طور کلی هفته گذشته معرفی شده است. موسسه تحقیقاتی Epoch AI ، که مسئولیت Frontiermath را بر عهده دارد ، نتایج آزمایش های مستقل معیار را از O3 روز جمعه منتشر کرد. EPOCH اعلام کرده است که O3 حدود 10 ٪ درآمد ، بسیار پایین تر از بالاترین امتیاز ادعای.

O3 همچنین مدل استدلال بسیار مورد انتظار خود را با O4-Mini ، یک مدل کوچکتر و ارزان تر که جایگزین O3-Mini است ، منتشر کرد. Epoch در یک توییت اعلام کرد که این مدل های جدید در مجموعه ای از معیارهای ریاضی و علمی ارزیابی شده است.

تفاوت در نتایج

این بدان معنا نیست که Openai صریحاً دروغ گفته است. نتایج بنچمارک منتشر شده توسط این شرکت در ماه دسامبر نمره ای را نشان می دهد که با نمره ای که Epoch مشاهده کرده است مطابقت دارد. Epoch همچنین خاطرنشان كرد كه تنظیمات تست آن احتمالاً با تنظیمات OpenAI متفاوت است و از نسخه Frontiermath برای ارزیابی های خود استفاده كرده اند. Epoch در گزارشی نوشت: “تفاوت بین نتایج ما و OpenAI ممکن است به دلیل ارزیابی Openai با یک زیرساخت داخلی قوی تر باشد ، از محاسبات بیشتر در زمان آزمایش استفاده کنید ، یا به این دلیل که نتایج در زیر مجموعه متفاوت Frontiermath (180 سؤال در Frontiermath-2024-11-26 در برابر 290 سؤال در Vs. 290 Frontiermath-2025-2025-2025-025-025-025-025-025-025

مدل ها و بهینه سازی های مختلف

براساس بنیاد جایزه ARC ، سازمانی که نسخه قبل از انتشار O3 را آزمایش کرده است ، مدل عمومی O3 “یک مدل متفاوت برای چت و استفاده از محصول” است که گزارش دوره را تأیید می کند. آنها همچنین نوشتند که “تمام سطوح محاسباتی O3 از نسخه ای که ما آزمایش کردیم کوچکتر است.” به طور کلی ، می توان انتظار داشت که سطح محاسباتی بزرگتر برای دستیابی به نمرات معیار بهتر باشد.

وندا ژو ، عضو کادر فنی Openai ، هفته گذشته در پخش زنده گفت که O3 در تولید “بهینه سازی بیشتر برای استفاده واقعی” و سرعت است و ممکن است تفاوت هایی در معیارها نشان دهد. گفت “[ما] “ما بهینه شده ایم تا مدل از نظر هزینه کارآمدتر و مفیدتر شود.”

این واقعیت که انتشار عمومی O3 به وعده های آزمایش OpenAi نمی رسد ، به نوعی موضوع O3-Mini-High و O4-Mini در Frontiermath بهتر از O3 است و OpenAI قصد دارد نسخه قوی تری از O3 ، O3-PRO را معرفی کند. با این حال ، این یکی دیگر از یادآوری است که معیارهای هوش مصنوعی بهتر است مورد بررسی قرار نگیرند ، به ویژه هنگامی که منبع یک شرکت با خدمات فروش است. اختلافات در معیار در صنعت اطلاعات مصنوعی امری عادی شده است ، زیرا فروشندگان در تلاشند تا عناوین و توجه را با مدل های جدید جلب کنند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پیشنهادات سردبیر:

تبلیغات متنی